Доработать веб скрапер (Python + Selenium)

1 000 руб.за час
26 июля 2022, 19:14 • 11 откликов • 100 просмотров
Необходимо доработать веб скрапер.

Он вполне себе работает и сам по себе не сложный - на вход даются ссылки (2-10к), помещаются в очередь, парсер проходится по ним всем и достаёт все внешние ссылки на странице. Все найденные внешние ссылки тоже помещаются в очередь, обрабатываются и по результатам проверки им присваивается какой-то статус (good, 4xx, 5xx и т.д.).
Для примера, из начальных 5к ссылок (сидов) получается в сумме около 50к (+5к) сайтов для процессинга (4-6ч).

Проблема:
По ходу дела выяснилось, что Селениум не видит серверные хттп ответы типа 200, 4хх, 5хх (...), но мне необходимо их отлавливать.

Что надо сделать:
1) модицифировать текущий веб драйвер (разные варианты) чтобы эти серверные ответы отлавливались
2) если не получится п.1 то перенести всё на Chrome
3) улучшить точность определения статуса сайтов, на которых стоят всякие защиты от ботов (прим. Cloudflare). P.S. один сайт парсится 1 раз, не должно быть сложно, опять же.
4) если всё ок, то скрапер надо будет дорабатывать и дальше

Текущая реализация:
многопоточный Python веб-скрапер с ротацией прокси, базой в SQLite и FastAPI для манипуляций. Хостинг DO 8GB RAM / 4 AMD vCPUs

Больше информации/доступ к репо по отклику.

Отзывы
R50 446a7ce7218c82ba11786ee9901007bf
Заказчик
Отличный разработчик, сходу вник в задачу, разобрался в чужом коде сложного сервиса, переработал код и сам предложил что можно улучшить . Всегда на связи, рекомендую!
1 год назад
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Фрилансер
Отличный заказчик, четкие тз, знаком с технической частью, приятен в общении, бюджет приятный. Продолжаем работать.
Всем рекомендую к сотрудничеству.
1 год назад