Парсинг раздела объявлений сайта newsakh.com

10 000 руб. за проект
27 сентября 2022, 15:17 • 20 откликов • 191 просмотр
ПО должно быть написано на pyton , должна работать с моего компьютера на ОС windows 7-10, без использования хостинга, без платных функций.

Парсер должен состоять из 4 частей :
- парсер раздела объявления https://marketsakhcom.ru/
- парсер раздела недвижимость https://domsakhcom.ru/
- парсер раздела авто https://autosakhcom.ru/

На выходе каждой части парсера должен быть xls файл (БД), который содержит следующие колонки:
- Id объявления,
- номер телефона в формате "79140001122",
- дополнительный номер телефона (если был указан),
- e-mail (если был указан),
- дата время подачи объявления,
- город,
- заголовок и текст объявления,
- ссылка на объявление,
- адрес или координаты (для раздела недвижимости),
- фото (для раздела авто) - хранятся в отдельном месте в исходном качестве, в самом xls файле - ссылка на файл с фотографией.

Добавить возможность объединения всех xls файлов в один.

Для диалога с пользователем и контроля процесса ПО достаточно консольного окна.

При первом запуске (или отсутствии БД) парсер должен скачать в БД все что в настоящий момент есть на сайте, а при последующих включениях - дополнять БД вновь опубликоваными объявлениями.

Для ускорения процесса парсинга использовать многопоточность, без превышения ограничений сайта.

Добавить возможность парсинга в автоматическом режиме в заданое время или через определённый промежуток времени.

При необходимости - в автоматическом режиме использовать прокси для обхода блокировок и бана.

Необходимо графическое представление алгоритма, если есть возможность - IDEF0, если нет - в виде блок-схемы.

Нужно выяснить ограничения сайта - количество запросов, частота запросов, которое отсекается.