Парсинг контактов и очистка

Цена договорная • электронные деньги
29 ноября 2016, 16:09 • 1 отклик • 47 просмотров
нужен скрипт, где на входе вводишь Url сайтов и на выходе получаешь файл с контактными данными, очищенными от мусора + ссылки на пути этих контактных данных (xpath).

вариант реализации:

  1. Нужно реализовать парсер страниц компаний, например на scrapy.org т.е. на сайте искать страницы: контакты, о магазине, о нас, доставка, оплата, и тд, и сохранять их целиком. если такие страницы не найдены - сохранять индексную страницу.
  2. из этих страниц нужно вытянуть данные:
а) номера телефонов компании
б) адрес компании
в) режим работы
г) название компании
д) унп компании. он же регистрационный номер предприятия (т.е. искать можно по вхождению унп + 9 цифр, бин - 12 цифр, угрпоу - 8 цифр)
ж) email
з) ссылки на соц сети

3. сохранять xpath (ы) спаршенных контактных данных (например находим по регулярке с каждым контактом тег с id или class, если он на странице один, выдергиваем путь для этого контакта) и сохранять в общую таблицу вида url сайта | xpath ; xpath ; xpath

*вытянуть наверняка номера телефонов можно через https://github.com/daviddrysdale/python-phonenumbe... например.

*чтобы вытянуть адреса, без мусора, можно использовать https://tech.yandex.ru/maps/geocoder/ т.е. отправляем туда строчку с адресом и мусором, а в ответе получаем очищенные, структурированные данные.

* важна многопоточность. 100 тыс сайтов нужно прогонять за 1-2 дня максимум.

*% нужных вытянутых данных (номера телефонов компании, адрес компании, режим работы) - должен быть не менее 90% т.е. если на сайте есть, а в результатах парсинга нет - допустимо в 10% случаев.

предлагаем сроки и цену в комментах