Парсер резуме с HH по ссылкам с имитацией браузера
4 000 руб. за проект
Можно в виде расширения/либо других вариантов.
1. Есть 20000 ссылок на HH.ru вида https://hh.ru/employer/vacancyresponses?vacancyId=...
по каждой ссылке на 1й странице размещены от 0-50 резуме.
Нужно спарсить эти резуме с этой страницы (с сылкой на сами резуме), не заходя на сами резуме.
2. создаем бд/PostgreSQL на сервере для 20000 ссылок, по которым будем собирать резуме. столбцы:
а) "ссылка"
б) "количество резуме по этой ссылке" (где 0 резусе - потом будем руками удалять)
в) дата/время сбора резуме по этой ссылке ссылке
3. создаем вторую бд/PostgreSQL для самих резуме, со столбцами. смотрим вложение эксель.
1я строчка полей, которые мы можем собрать с ссылке из пункта №1, не заходя на саму страницу резуме.
под строчкой кое где коменты
4я- строка, это данные есть только на полной странице резуме, их мы будем собирать позже. т к пока на эту страницу мы не попадаем.
4. Указываем перед сбором вывод всех полей на страницу https://skr.sh/s5rgU3XKiO2
5. Вложенные файлы. ссылки с которых собираем резуме. начинаем парсить с ссылок, что выше. так как тем больше резуме на странице.
5.1. поля/столбцы для бд№2.
6. Итого что мы получаем (главное - полная имитация браузера):
6.1. скрипт может быть без авторизации - руками могу авторизоваться.
6.2. выставлю в коде паузы между страницами от 10 до 20 сек
6.3. запускаю скрипт. скрипт открывает 1ю ссылку.... собрал данные. положил данные во 2-ю бд. пауза. открыл 2-ю ссылку и т дэ
он собирает. потом я остановливаю. и так за 2-3 дня парсер обойдет все ссылки.
7. Сразу пжл пишите.
7.1. Как с вами связаться.
7.2. Когда готовы приступить.
7.3. Как предлашаете реализовать.
7.4. Цена часа вашей работы.
1. Есть 20000 ссылок на HH.ru вида https://hh.ru/employer/vacancyresponses?vacancyId=...
по каждой ссылке на 1й странице размещены от 0-50 резуме.
Нужно спарсить эти резуме с этой страницы (с сылкой на сами резуме), не заходя на сами резуме.
2. создаем бд/PostgreSQL на сервере для 20000 ссылок, по которым будем собирать резуме. столбцы:
а) "ссылка"
б) "количество резуме по этой ссылке" (где 0 резусе - потом будем руками удалять)
в) дата/время сбора резуме по этой ссылке ссылке
3. создаем вторую бд/PostgreSQL для самих резуме, со столбцами. смотрим вложение эксель.
1я строчка полей, которые мы можем собрать с ссылке из пункта №1, не заходя на саму страницу резуме.
под строчкой кое где коменты
4я- строка, это данные есть только на полной странице резуме, их мы будем собирать позже. т к пока на эту страницу мы не попадаем.
4. Указываем перед сбором вывод всех полей на страницу https://skr.sh/s5rgU3XKiO2
5. Вложенные файлы. ссылки с которых собираем резуме. начинаем парсить с ссылок, что выше. так как тем больше резуме на странице.
5.1. поля/столбцы для бд№2.
6. Итого что мы получаем (главное - полная имитация браузера):
6.1. скрипт может быть без авторизации - руками могу авторизоваться.
6.2. выставлю в коде паузы между страницами от 10 до 20 сек
6.3. запускаю скрипт. скрипт открывает 1ю ссылку.... собрал данные. положил данные во 2-ю бд. пауза. открыл 2-ю ссылку и т дэ
он собирает. потом я остановливаю. и так за 2-3 дня парсер обойдет все ссылки.
7. Сразу пжл пишите.
7.1. Как с вами связаться.
7.2. Когда готовы приступить.
7.3. Как предлашаете реализовать.
7.4. Цена часа вашей работы.
Отзывы
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.