R50 e6b85de19dd03271d04e345b9034095f
Fullstack development

Training project: scraping a website Gamedev.ru

Добавлено 17 янв 2023 в 03:17
Программа подключается к сайту gamedev.ru . Она использует семантическое ядро для того, чтобы найти совпадение слов среди данных с веб-страницы.

Семантическое ядро - это список слов, которые указывают на необходимую информацию, другими словами, "белый лист". Также используется "черный лист", который представлен в виде файла с водными словами. Эти слова не имеют отношения к делу и должны быть проигнорированы перед анализом данных веб-страницы и "белого листа".

Программа не имеет настроек для пользователя и нацелена для одной конкретной задачи: найти всех дизайнеров-звука на сайте gamedev.ru . Чтобы адаптировать программу к поиску других данных, необходимо создать новые "черный и белый листы", а также переписать алгоритм скрапинга для конкретного сайта.

Чтобы увидеть программу в действии, вам нужно запустить файл "синтаксический анализ".

Полученные данные будут сохранены в папке "parse_data". Цифры в названии указывают на "идентификатор" страницы форума. Они должны быть вставлены в URL-ссылку, чтобы оказаться на нужной странице.

https://github.com/0NeoCoda0/Scraping-programm
75cd10b614