Парсер резуме с HH по ссылкам с имитацией браузера

4 000 руб. за проект
31 декабря 2020, 14:27 • 11 откликов • 68 просмотров
Можно в виде расширения/либо других вариантов.

1. Есть 20000 ссылок на HH.ru вида https://hh.ru/employer/vacancyresponses?vacancyId=...
по каждой ссылке на 1й странице размещены от 0-50 резуме.
Нужно спарсить эти резуме с этой страницы (с сылкой на сами резуме), не заходя на сами резуме.

2. создаем бд/PostgreSQL на сервере для 20000 ссылок, по которым будем собирать резуме. столбцы:
а) "ссылка"
б) "количество резуме по этой ссылке" (где 0 резусе - потом будем руками удалять)
в) дата/время сбора резуме по этой ссылке ссылке

3. создаем вторую бд/PostgreSQL для самих резуме, со столбцами. смотрим вложение эксель.
1я строчка полей, которые мы можем собрать с ссылке из пункта №1, не заходя на саму страницу резуме.
под строчкой кое где коменты
4я- строка, это данные есть только на полной странице резуме, их мы будем собирать позже. т к пока на эту страницу мы не попадаем.

4. Указываем перед сбором вывод всех полей на страницу https://skr.sh/s5rgU3XKiO2

5. Вложенные файлы. ссылки с которых собираем резуме. начинаем парсить с ссылок, что выше. так как тем больше резуме на странице.
5.1. поля/столбцы для бд№2.

6. Итого что мы получаем (главное - полная имитация браузера):
6.1. скрипт может быть без авторизации - руками могу авторизоваться.
6.2. выставлю в коде паузы между страницами от 10 до 20 сек
6.3. запускаю скрипт. скрипт открывает 1ю ссылку.... собрал данные. положил данные во 2-ю бд. пауза. открыл 2-ю ссылку и т дэ
он собирает. потом я остановливаю. и так за 2-3 дня парсер обойдет все ссылки.

7. Сразу пжл пишите.
7.1. Как с вами связаться.
7.2. Когда готовы приступить.
7.3. Как предлашаете реализовать.
7.4. Цена часа вашей работы.
Отзывы
Все четко и в срок! Рекомендую.
4 месяца назад
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Фрилансер
 
4 месяца назад