R50 ce33ffef204fbfe28200143541139da8
Python разработчик

Парсер фрилансеров на Хабр Фрилансе

Добавлено 23 фев 2023 в 15:00
Использованные библиотеки: requests, json, time, beautifulsoup4, lxml, fake_useragent.

Парсер работает только на первых ста страницах списка специалистов, потому что парсить их все (>4700) было бы слишком долго и бессмысленно для неоплачиваемого проекта. Хотя, если кому-то вдруг очень нужно, то можно спарсить абсолютно всех фрилансеров

Чтобы не долбить сайт запросами сверх меры, я одним реквестом записывал каждую страницу в html-файл, а потом уже работал с этой загруженной копией. Ещё, чтобы парсер выглядел человечнее, он рандомно генерирует себе User_agent каждую итерацию, а между самими итерациями есть пауза в 2 секунды.

У каждого фрилансера я нашёл:
  • Имя
  • Специализацию
  • Позитивные оценки
  • Негативные оценки
  • Цену работы
  • Текст о себе
  • Проекты в портфолио (или их отсутствие)
  • Указанные теги
Затем всё это я залил в json-файл, который длиной вышел в 46 тысяч строк. (сам я, кстати, нахожусь на строчках 9435-9454)
F52907cf7b 075a0b42ea Febbe88515 F5e8e81e38 A4377446b9