Парсер информации о компаниях на linkedin

4 000 руб. за проект
14 апреля 2020, 23:46 • 7 откликов • 50 просмотров
Нужен скрипт
parse.py —company-url “https://www.linkedin.com/company/mail-ru/“ --selectors selectors.json —out result.json —log out.log

seleninum + chrome driver

Скрипт загружает страницу компании, справа переходит по ссылке чтобы получить всех сотрудников
See all 2,877 employees on LinkedIn и парсит информациию о каждом сотруднике с его персональной страницы по всем страницам поиска в результирующийи json, пример в аттаче

На странице сотрудника парсим информацию по всем компаниям в которых он работал, если менял позиции в рамках одной комании тогда информацию о позиции складываем в массив positions. см пример в аттаче

selectors.json - содержит xpath пути до конкретных значений,необходимо его написать таким образом чтобы был универсальным и работал для всех компаний, парсер должен парсить на основе его содержимого, чтобы в будущем можно было править только этот конфиг.

В случае ошибки либо в случае если селектор не найден, ошибка парсинга, и прочиее нештатные ситуации вout.log пишется подробная информация о том что произошло.


Парсер должен работать в tty без UI окружения
Файлы