Парсинг раздела объявлений сайта newsakh.com
10 000 руб. за проект
ПО должно быть написано на pyton , должна работать с моего компьютера на ОС windows 7-10, без использования хостинга, без платных функций.
Парсер должен состоять из 4 частей :
- парсер раздела объявления https://marketsakhcom.ru/
- парсер раздела недвижимость https://domsakhcom.ru/
- парсер раздела авто https://autosakhcom.ru/
На выходе каждой части парсера должен быть xls файл (БД), который содержит следующие колонки:
- Id объявления,
- номер телефона в формате "79140001122",
- дополнительный номер телефона (если был указан),
- e-mail (если был указан),
- дата время подачи объявления,
- город,
- заголовок и текст объявления,
- ссылка на объявление,
- адрес или координаты (для раздела недвижимости),
- фото (для раздела авто) - хранятся в отдельном месте в исходном качестве, в самом xls файле - ссылка на файл с фотографией.
Добавить возможность объединения всех xls файлов в один.
Для диалога с пользователем и контроля процесса ПО достаточно консольного окна.
При первом запуске (или отсутствии БД) парсер должен скачать в БД все что в настоящий момент есть на сайте, а при последующих включениях - дополнять БД вновь опубликоваными объявлениями.
Для ускорения процесса парсинга использовать многопоточность, без превышения ограничений сайта.
Добавить возможность парсинга в автоматическом режиме в заданое время или через определённый промежуток времени.
При необходимости - в автоматическом режиме использовать прокси для обхода блокировок и бана.
Необходимо графическое представление алгоритма, если есть возможность - IDEF0, если нет - в виде блок-схемы.
Нужно выяснить ограничения сайта - количество запросов, частота запросов, которое отсекается.
Парсер должен состоять из 4 частей :
- парсер раздела объявления https://marketsakhcom.ru/
- парсер раздела недвижимость https://domsakhcom.ru/
- парсер раздела авто https://autosakhcom.ru/
На выходе каждой части парсера должен быть xls файл (БД), который содержит следующие колонки:
- Id объявления,
- номер телефона в формате "79140001122",
- дополнительный номер телефона (если был указан),
- e-mail (если был указан),
- дата время подачи объявления,
- город,
- заголовок и текст объявления,
- ссылка на объявление,
- адрес или координаты (для раздела недвижимости),
- фото (для раздела авто) - хранятся в отдельном месте в исходном качестве, в самом xls файле - ссылка на файл с фотографией.
Добавить возможность объединения всех xls файлов в один.
Для диалога с пользователем и контроля процесса ПО достаточно консольного окна.
При первом запуске (или отсутствии БД) парсер должен скачать в БД все что в настоящий момент есть на сайте, а при последующих включениях - дополнять БД вновь опубликоваными объявлениями.
Для ускорения процесса парсинга использовать многопоточность, без превышения ограничений сайта.
Добавить возможность парсинга в автоматическом режиме в заданое время или через определённый промежуток времени.
При необходимости - в автоматическом режиме использовать прокси для обхода блокировок и бана.
Необходимо графическое представление алгоритма, если есть возможность - IDEF0, если нет - в виде блок-схемы.
Нужно выяснить ограничения сайта - количество запросов, частота запросов, которое отсекается.
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.