Программа подключается к сайту gamedev.ru . Она использует семантическое ядро для того, чтобы найти совпадение слов среди данных с веб-страницы.
Семантическое ядро - это список слов, которые указывают на необходимую информацию, другими словами, "белый лист". Также используется "черный лист", который представлен в виде файла с водными словами. Эти слова не имеют отношения к делу и должны быть проигнорированы перед анализом данных веб-страницы и "белого листа".
Программа не имеет настроек для пользователя и нацелена для одной конкретной задачи: найти всех дизайнеров-звука на сайте gamedev.ru . Чтобы адаптировать программу к поиску других данных, необходимо создать новые "черный и белый листы", а также переписать алгоритм скрапинга для конкретного сайта.
Чтобы увидеть программу в действии, вам нужно запустить файл "синтаксический анализ".
Полученные данные будут сохранены в папке "parse_data". Цифры в названии указывают на "идентификатор" страницы форума. Они должны быть вставлены в URL-ссылку, чтобы оказаться на нужной странице.
https://github.com/0NeoCoda0/Scraping-programm