Парсер контактных данных и очистка мусора

23 000 руб. за проект • электронные деньги
21 ноября 2016, 17:41 • 4 отклика • 72 просмотра
нужен скрипт, где на входе вводишь Url сайтов (каждый с новой строки) и на выходе получаешь csv файл с контактными данными очищенными от мусора.

как вариант искать страницы контакты, о магазине, о нас, доставка, оплата и тд и брать данные лишь оттуда, если такие страницы не найдены - брать данные с индексной страницы.

1. Необходимо вытягивать данные:

а) номера телефонов компании
б) адрес компании
в) режим работы
г) название компании
д) унп компании
е) регистрационный номер предприятия (т.е. искать можно по вхождению унп + 9 цифр, бин - 12 цифр, угрпоу - 8 цифр)
ж) email
з) ссылки на соц сети

2. После преобразовать их в единый формат отображения и сохранить в csv. формат преобразованных данных:

а) url сайта

sitename.by

б) номера телефонов

+375 29 107 70 70
+375 17 162 44 55

в) адреса

название города
название улицы номер дома
номер офиса
дополнительная информация


г) режим работы

Понедельник 12:00-01:00
Вторник 12:00-01:00
Среда 12:00-01:00
Четверг 12:00-01:00
Пятница 12:00-03:00
Суббота 12:00-03:00
Воскресенье 12:00-01:00

3. сохранять xpath (ы) спаршенных контактных данных (например находим по регулярке с каждым контактом тег с id или class
если он на странице один, выдергиваем путь для этого контакта) и сохранять в общую таблицу вида
url сайта | xpath ; xpath ; xpath

Обязательные требования:1) важна многопоточность работы скрипта. нужно 100 00 сайтов прогонять за 1-2 суток. не больше.

2) % нужных вытянутых данных (номера телефонов компании, адрес компании, режим работы) - должен быть не менее 90%