Парсинг сайта

2 650 руб. за проект
08 января 2025, 17:30 • 18 откликов • 117 просмотров
Сбор и обработка данных с сайта Dili360 через подборку Baidu
Dili360 – тревел-сайт

Собрать тексты с сайта Dili360 (через подборку по ссылку в Baidu), извлечь актуальную туристическую лексику, статьи и ключевые фразы, чтобы предоставить данные для анализа. Все дальнейшие анализы частотности, структуры предложений и стиля текста выполнит нейросеть (ChatGPT).

Этапы работы:
1. Сбор ссылок из подборки Baidu
2. Сбор текстов с сайта Dili360
3. Очистка данных
4. Структурирование данных


Итоги работы:
• Все релевантные тексты с сайта собраны.
• Итоговый объем данных составляет не менее 5000 уникальных фраз.
• Данные очищены и структурированы.
• Файлы подготовлены для загрузки и анализа.

Во вложении подробное ТЗ






Файлы