R50 657f4d2da224ec39f43e518f8117a065
Middle Python

Парсер[ITA]

Добавлено 22 апр 2022 в 17:45
Сервис-парсер для государственного сайта и нескольких других в Италии.
Технологии:
Python+Selenium,
решение Captcha с помощью ruCaptcha,
Alembic, Postgres,
Интеграцией с PDFmonkey для создания отчёта по найденным данным с последующей отправкой на почту
Celery + Redis
FastAPI Backend
Сервер - Windows
UPD:
Дальнейшим развитием проекта стал парсинг первоисточника данных, и сервис стал копией итальянского сайт по поиску определённых данных.
Итого в базе в основной таблице 20 млн строк данных.
Получение результата сократилось с 1-2 минут до секунды.
Так же расширился функционал, добавили поиск всех компаний входящих в группу компаний + рисование схемы зависимости этих компаний и другие моменты в контексте проекта.

В картинке - фото отчёта.
D18e4fe9f9