Парсер контактных данных и очистка мусора
23 000 руб. за проект
•
электронные деньги
нужен скрипт, где на входе вводишь Url сайтов (каждый с новой строки) и на выходе получаешь csv файл с контактными данными очищенными от мусора.
как вариант искать страницы контакты, о магазине, о нас, доставка, оплата и тд и брать данные лишь оттуда, если такие страницы не найдены - брать данные с индексной страницы.
1. Необходимо вытягивать данные:
а) номера телефонов компании
б) адрес компании
в) режим работы
г) название компании
д) унп компании
е) регистрационный номер предприятия (т.е. искать можно по вхождению унп + 9 цифр, бин - 12 цифр, угрпоу - 8 цифр)
ж) email
з) ссылки на соц сети
2. После преобразовать их в единый формат отображения и сохранить в csv. формат преобразованных данных:
а) url сайта
sitename.by
б) номера телефонов
+375 29 107 70 70
+375 17 162 44 55
в) адреса
название города
название улицы номер дома
номер офиса
дополнительная информация
г) режим работы
Понедельник 12:00-01:00
Вторник 12:00-01:00
Среда 12:00-01:00
Четверг 12:00-01:00
Пятница 12:00-03:00
Суббота 12:00-03:00
Воскресенье 12:00-01:00
3. сохранять xpath (ы) спаршенных контактных данных (например находим по регулярке с каждым контактом тег с id или class
если он на странице один, выдергиваем путь для этого контакта) и сохранять в общую таблицу вида
url сайта | xpath ; xpath ; xpath
Обязательные требования:1) важна многопоточность работы скрипта. нужно 100 00 сайтов прогонять за 1-2 суток. не больше.
2) % нужных вытянутых данных (номера телефонов компании, адрес компании, режим работы) - должен быть не менее 90%
как вариант искать страницы контакты, о магазине, о нас, доставка, оплата и тд и брать данные лишь оттуда, если такие страницы не найдены - брать данные с индексной страницы.
1. Необходимо вытягивать данные:
а) номера телефонов компании
б) адрес компании
в) режим работы
г) название компании
д) унп компании
е) регистрационный номер предприятия (т.е. искать можно по вхождению унп + 9 цифр, бин - 12 цифр, угрпоу - 8 цифр)
ж) email
з) ссылки на соц сети
2. После преобразовать их в единый формат отображения и сохранить в csv. формат преобразованных данных:
а) url сайта
sitename.by
б) номера телефонов
+375 29 107 70 70
+375 17 162 44 55
в) адреса
название города
название улицы номер дома
номер офиса
дополнительная информация
г) режим работы
Понедельник 12:00-01:00
Вторник 12:00-01:00
Среда 12:00-01:00
Четверг 12:00-01:00
Пятница 12:00-03:00
Суббота 12:00-03:00
Воскресенье 12:00-01:00
3. сохранять xpath (ы) спаршенных контактных данных (например находим по регулярке с каждым контактом тег с id или class
если он на странице один, выдергиваем путь для этого контакта) и сохранять в общую таблицу вида
url сайта | xpath ; xpath ; xpath
Обязательные требования:1) важна многопоточность работы скрипта. нужно 100 00 сайтов прогонять за 1-2 суток. не больше.
2) % нужных вытянутых данных (номера телефонов компании, адрес компании, режим работы) - должен быть не менее 90%
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.