Мы с важной новостью: с 28 февраля 2025 года сервис Хабр Фриланс прекратит свою работу.

Купить услуги можно до 28 февраля 2025, но пополнить баланс уже нельзя. Если на вашем счете остались средства, вы можете потратить их на небольшие услуги — служба поддержки готова поделиться бонусами, на случай, если средств немного не хватает.
R50 e6b85de19dd03271d04e345b9034095f
Fullstack development

Training project: scraping a website Gamedev.ru

Добавлено 17 янв 2023 в 03:17
Программа подключается к сайту gamedev.ru . Она использует семантическое ядро для того, чтобы найти совпадение слов среди данных с веб-страницы.

Семантическое ядро - это список слов, которые указывают на необходимую информацию, другими словами, "белый лист". Также используется "черный лист", который представлен в виде файла с водными словами. Эти слова не имеют отношения к делу и должны быть проигнорированы перед анализом данных веб-страницы и "белого листа".

Программа не имеет настроек для пользователя и нацелена для одной конкретной задачи: найти всех дизайнеров-звука на сайте gamedev.ru . Чтобы адаптировать программу к поиску других данных, необходимо создать новые "черный и белый листы", а также переписать алгоритм скрапинга для конкретного сайта.

Чтобы увидеть программу в действии, вам нужно запустить файл "синтаксический анализ".

Полученные данные будут сохранены в папке "parse_data". Цифры в названии указывают на "идентификатор" страницы форума. Они должны быть вставлены в URL-ссылку, чтобы оказаться на нужной странице.

https://github.com/0NeoCoda0/Scraping-programm
75cd10b614