Доработать веб скрапер (Python + Selenium)
1 000 руб.за час
Необходимо доработать веб скрапер.
Он вполне себе работает и сам по себе не сложный - на вход даются ссылки (2-10к), помещаются в очередь, парсер проходится по ним всем и достаёт все внешние ссылки на странице. Все найденные внешние ссылки тоже помещаются в очередь, обрабатываются и по результатам проверки им присваивается какой-то статус (good, 4xx, 5xx и т.д.).
Для примера, из начальных 5к ссылок (сидов) получается в сумме около 50к (+5к) сайтов для процессинга (4-6ч).
Проблема:
По ходу дела выяснилось, что Селениум не видит серверные хттп ответы типа 200, 4хх, 5хх (...), но мне необходимо их отлавливать.
Что надо сделать:
1) модицифировать текущий веб драйвер (разные варианты) чтобы эти серверные ответы отлавливались
2) если не получится п.1 то перенести всё на Chrome
3) улучшить точность определения статуса сайтов, на которых стоят всякие защиты от ботов (прим. Cloudflare). P.S. один сайт парсится 1 раз, не должно быть сложно, опять же.
4) если всё ок, то скрапер надо будет дорабатывать и дальше
Текущая реализация:
многопоточный Python веб-скрапер с ротацией прокси, базой в SQLite и FastAPI для манипуляций. Хостинг DO 8GB RAM / 4 AMD vCPUs
Больше информации/доступ к репо по отклику.
Он вполне себе работает и сам по себе не сложный - на вход даются ссылки (2-10к), помещаются в очередь, парсер проходится по ним всем и достаёт все внешние ссылки на странице. Все найденные внешние ссылки тоже помещаются в очередь, обрабатываются и по результатам проверки им присваивается какой-то статус (good, 4xx, 5xx и т.д.).
Для примера, из начальных 5к ссылок (сидов) получается в сумме около 50к (+5к) сайтов для процессинга (4-6ч).
Проблема:
По ходу дела выяснилось, что Селениум не видит серверные хттп ответы типа 200, 4хх, 5хх (...), но мне необходимо их отлавливать.
Что надо сделать:
1) модицифировать текущий веб драйвер (разные варианты) чтобы эти серверные ответы отлавливались
2) если не получится п.1 то перенести всё на Chrome
3) улучшить точность определения статуса сайтов, на которых стоят всякие защиты от ботов (прим. Cloudflare). P.S. один сайт парсится 1 раз, не должно быть сложно, опять же.
4) если всё ок, то скрапер надо будет дорабатывать и дальше
Текущая реализация:
многопоточный Python веб-скрапер с ротацией прокси, базой в SQLite и FastAPI для манипуляций. Хостинг DO 8GB RAM / 4 AMD vCPUs
Больше информации/доступ к репо по отклику.
Отзывы
Отличный разработчик, сходу вник в задачу, разобрался в чужом коде сложного сервиса, переработал код и сам предложил что можно улучшить . Всегда на связи, рекомендую!
2 года
назад
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.