Этот проект представляет собой систему для автоматизированного парсинга данных с трёх различных сайтов по списку наименований. Целью было создать решение, которое собирает информацию раз в сутки, обрабатывая её эффективно и без участия человека.
Инструменты и технологии:- Язык программирования: Python
- Библиотека для автоматизации: Selenium
- Другие библиотеки: BeautifulSoup (для обработки HTML), Requests (для HTTP-запросов)
- Обход reCaptcha / Cloudflare: Использованы техники обхода защиты, включая использование прокси и искусственного интеллекта для распознавания капчи.
Этапы выполнения проекта:- Анализ требований и планирование (1 день):
- Определение перечня сайтов для парсинга и необходимых данных.
- Разработка архитектуры решения и выбор инструментов.
- Разработка парсера (2 дня):
- Настройка Selenium для взаимодействия с каждым из трёх сайтов.
- Создание скриптов для парсинга данных по заданным наименованиям.
- Реализация обхода reCaptcha / Cloudflare (3 дня):
- Внедрение прокси для изменения IP-адресов.
- Использование сервисов и библиотек для автоматического распознавания капчи.
- Тестирование и отладка (2 дня):
- Проведение тестирования для проверки корректности парсинга и обработки данных.
- Оптимизация скриптов для повышения скорости и надёжности.
- Внедрение и автоматизация (1 день):
- Настройка запуска скрипта раз в сутки на сервере.
- Обработка ошибок и логирование для отслеживания работы системы.
Результат: Созданная система успешно собирает данные с трёх сайтов по списку наименований, обходя защиту reCaptcha и Cloudflare, и работает автоматически раз в сутки. Это решение позволяет значительно экономить время и снижать риски ошибок при ручном сборе данных.
Время выполнения: Всего на проект было затрачено 9 дней.