Парсинг контактов и очистка
Цена договорная
•
электронные деньги
нужен скрипт, где на входе вводишь Url сайтов и на выходе получаешь файл с контактными данными, очищенными от мусора + ссылки на пути этих контактных данных (xpath).
вариант реализации:
б) адрес компании
в) режим работы
г) название компании
д) унп компании. он же регистрационный номер предприятия (т.е. искать можно по вхождению унп + 9 цифр, бин - 12 цифр, угрпоу - 8 цифр)
ж) email
з) ссылки на соц сети
3. сохранять xpath (ы) спаршенных контактных данных (например находим по регулярке с каждым контактом тег с id или class, если он на странице один, выдергиваем путь для этого контакта) и сохранять в общую таблицу вида url сайта | xpath ; xpath ; xpath
*вытянуть наверняка номера телефонов можно через https://github.com/daviddrysdale/python-phonenumbe... например.
*чтобы вытянуть адреса, без мусора, можно использовать https://tech.yandex.ru/maps/geocoder/ т.е. отправляем туда строчку с адресом и мусором, а в ответе получаем очищенные, структурированные данные.
* важна многопоточность. 100 тыс сайтов нужно прогонять за 1-2 дня максимум.
*% нужных вытянутых данных (номера телефонов компании, адрес компании, режим работы) - должен быть не менее 90% т.е. если на сайте есть, а в результатах парсинга нет - допустимо в 10% случаев.
предлагаем сроки и цену в комментах
вариант реализации:
- Нужно реализовать парсер страниц компаний, например на scrapy.org т.е. на сайте искать страницы: контакты, о магазине, о нас, доставка, оплата, и тд, и сохранять их целиком. если такие страницы не найдены - сохранять индексную страницу.
- из этих страниц нужно вытянуть данные:
б) адрес компании
в) режим работы
г) название компании
д) унп компании. он же регистрационный номер предприятия (т.е. искать можно по вхождению унп + 9 цифр, бин - 12 цифр, угрпоу - 8 цифр)
ж) email
з) ссылки на соц сети
3. сохранять xpath (ы) спаршенных контактных данных (например находим по регулярке с каждым контактом тег с id или class, если он на странице один, выдергиваем путь для этого контакта) и сохранять в общую таблицу вида url сайта | xpath ; xpath ; xpath
*вытянуть наверняка номера телефонов можно через https://github.com/daviddrysdale/python-phonenumbe... например.
*чтобы вытянуть адреса, без мусора, можно использовать https://tech.yandex.ru/maps/geocoder/ т.е. отправляем туда строчку с адресом и мусором, а в ответе получаем очищенные, структурированные данные.
* важна многопоточность. 100 тыс сайтов нужно прогонять за 1-2 дня максимум.
*% нужных вытянутых данных (номера телефонов компании, адрес компании, режим работы) - должен быть не менее 90% т.е. если на сайте есть, а в результатах парсинга нет - допустимо в 10% случаев.
предлагаем сроки и цену в комментах
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.