Автоматизированный парсинг данных с трех сайтов по списку названий

Backend разработка

Этот проект представляет собой систему для автоматизированного парсинга данных с трёх различных сайтов по списку наименований. Целью было создать решение, которое собирает информацию раз в сутки, обрабатывая её эффективно и без участия человека.

Инструменты и технологии:

Язык программирования: Python
Библиотека для автоматизации: Selenium
Другие библиотеки: BeautifulSoup (для обработки HTML), Requests (для HTTP-запросов)
Обход reCaptcha / Cloudflare: Использованы техники обхода защиты, включая использование прокси и искусственного интеллекта для распознавания капчи.

Этапы выполнения проекта:

Анализ требований и планирование (1 день):
- Определение перечня сайтов для парсинга и необходимых данных.
- Разработка архитектуры решения и выбор инструментов.
Разработка парсера (2 дня):
- Настройка Selenium для взаимодействия с каждым из трёх сайтов.
- Создание скриптов для парсинга данных по заданным наименованиям.
Реализация обхода reCaptcha / Cloudflare (3 дня):
- Внедрение прокси для изменения IP-адресов.
- Использование сервисов и библиотек для автоматического распознавания капчи.
Тестирование и отладка (2 дня):
- Проведение тестирования для проверки корректности парсинга и обработки данных.
- Оптимизация скриптов для повышения скорости и надёжности.
Внедрение и автоматизация (1 день):
- Настройка запуска скрипта раз в сутки на сервере.
- Обработка ошибок и логирование для отслеживания работы системы.

Результат: Созданная система успешно собирает данные с трёх сайтов по списку наименований, обходя защиту reCaptcha и Cloudflare, и работает автоматически раз в сутки. Это решение позволяет значительно экономить время и снижать риски ошибок при ручном сборе данных.

Время выполнения: Всего на проект было затрачено 9 дней.