R50 95c4e0465b8c57e3eb5a9c3ab489dcda
Backend разработка

Автоматизированный парсинг данных с трех сайтов по списку названий

Добавлено 01 июл 2024 в 20:28
Этот проект представляет собой систему для автоматизированного парсинга данных с трёх различных сайтов по списку наименований. Целью было создать решение, которое собирает информацию раз в сутки, обрабатывая её эффективно и без участия человека.

Инструменты и технологии:

  • Язык программирования: Python
  • Библиотека для автоматизации: Selenium
  • Другие библиотеки: BeautifulSoup (для обработки HTML), Requests (для HTTP-запросов)
  • Обход reCaptcha / Cloudflare: Использованы техники обхода защиты, включая использование прокси и искусственного интеллекта для распознавания капчи.
Этапы выполнения проекта:

  1. Анализ требований и планирование (1 день):
    • Определение перечня сайтов для парсинга и необходимых данных.
    • Разработка архитектуры решения и выбор инструментов.
  2. Разработка парсера (2 дня):
    • Настройка Selenium для взаимодействия с каждым из трёх сайтов.
    • Создание скриптов для парсинга данных по заданным наименованиям.
  3. Реализация обхода reCaptcha / Cloudflare (3 дня):
    • Внедрение прокси для изменения IP-адресов.
    • Использование сервисов и библиотек для автоматического распознавания капчи.
  4. Тестирование и отладка (2 дня):
    • Проведение тестирования для проверки корректности парсинга и обработки данных.
    • Оптимизация скриптов для повышения скорости и надёжности.
  5. Внедрение и автоматизация (1 день):
    • Настройка запуска скрипта раз в сутки на сервере.
    • Обработка ошибок и логирование для отслеживания работы системы.
Результат: Созданная система успешно собирает данные с трёх сайтов по списку наименований, обходя защиту reCaptcha и Cloudflare, и работает автоматически раз в сутки. Это решение позволяет значительно экономить время и снижать риски ошибок при ручном сборе данных.

Время выполнения: Всего на проект было затрачено 9 дней.

368c37c330