ЗАДАНИЕ ДЛЯ СКРАПИНГА САЙТОВ

10 000 руб. за проект
22 мая 2023, 15:53 • 5 откликов • 241 просмотр
ЗАДАНИЕ ДЛЯ СКРАПИНГА САЙТОВ:


Интеллектуальный веб- скрапинг(парсинг) html страниц, для извлечения контента, аналитики и последующей его обработки, с применением ML.


Поиск и анализ существующих решений по обработке HTML заголовков с использованием ML.

Анализ структуры HTML:

  • Машинное обучение применяется для анализа структуры HTML-страницы и определения различных элементов, таких как заголовки, параграфы, списки, таблицы.
  • Также может включать использование алгоритмов компьютерного зрения для распознавания и классификации элементов HTML на основе их визуальных свойств, например, расположение, размер и цвет.
Извлечение текстового контента:

  • Машинное обучение применяется для извлечения текстового контента из HTML-страницы.
  • Архитектура для обучение моделей для распознавания и классификации текстовых блоков, таких как заголовки, подзаголовки, абзацы.
  • Применение методов обработки естественного языка (Natural Language Processing, NLP) для извлечения информации из текстового контента, таких как именованные сущности, ключевые слова и другие семантические данные. (ПОДДЕРЖКА РУССКОГО И АНГЛИЙСКОГО ЯЗЫКА на первом этапе)
Извлечение графического контента:

  • Реализация алгоритмов обработки изображений для извлечения данных из графических элементов, таких как графики, диаграммы или картинки.
  • Использование модели машинного для распознавания и классификации структур данных на основе их визуальных или семантических характеристик.
Определение и классификация интересующего контента:

  • Использование МЛ для определения и классификации интересующего контента, на веб странице по заданному запросу.
Автоматическое обновление моделей:

  • Используя метод обучения с подкреплением (Reinforcement Learning), система должна сама учиться на основе обратной связи и опыта использования для адаптирования к изменениям веб-страниц и поддерживать высокую точность и надежность в процессе обработки контента.