Мы с важной новостью: с 28 февраля 2025 года сервис Хабр Фриланс прекратит свою работу.

Купить услуги можно до 28 февраля 2025, но пополнить баланс уже нельзя. Если на вашем счете остались средства, вы можете потратить их на небольшие услуги — служба поддержки готова поделиться бонусами, на случай, если средств немного не хватает.
R50 95c4e0465b8c57e3eb5a9c3ab489dcda
Backend разработка

Автоматизированный парсинг данных с трех сайтов по списку названий

Добавлено 01 июл 2024 в 20:28
Этот проект представляет собой систему для автоматизированного парсинга данных с трёх различных сайтов по списку наименований. Целью было создать решение, которое собирает информацию раз в сутки, обрабатывая её эффективно и без участия человека.

Инструменты и технологии:

  • Язык программирования: Python
  • Библиотека для автоматизации: Selenium
  • Другие библиотеки: BeautifulSoup (для обработки HTML), Requests (для HTTP-запросов)
  • Обход reCaptcha / Cloudflare: Использованы техники обхода защиты, включая использование прокси и искусственного интеллекта для распознавания капчи.
Этапы выполнения проекта:

  1. Анализ требований и планирование (1 день):
    • Определение перечня сайтов для парсинга и необходимых данных.
    • Разработка архитектуры решения и выбор инструментов.
  2. Разработка парсера (2 дня):
    • Настройка Selenium для взаимодействия с каждым из трёх сайтов.
    • Создание скриптов для парсинга данных по заданным наименованиям.
  3. Реализация обхода reCaptcha / Cloudflare (3 дня):
    • Внедрение прокси для изменения IP-адресов.
    • Использование сервисов и библиотек для автоматического распознавания капчи.
  4. Тестирование и отладка (2 дня):
    • Проведение тестирования для проверки корректности парсинга и обработки данных.
    • Оптимизация скриптов для повышения скорости и надёжности.
  5. Внедрение и автоматизация (1 день):
    • Настройка запуска скрипта раз в сутки на сервере.
    • Обработка ошибок и логирование для отслеживания работы системы.
Результат: Созданная система успешно собирает данные с трёх сайтов по списку наименований, обходя защиту reCaptcha и Cloudflare, и работает автоматически раз в сутки. Это решение позволяет значительно экономить время и снижать риски ошибок при ручном сборе данных.

Время выполнения: Всего на проект было затрачено 9 дней.

368c37c330