Создать парсер с CIAN.ru в CSV + jpg

10 000 руб. за проект
18 мая 2020, 09:25 • 12 откликов • 98 просмотров
Цель: Создать парсер с CIAN.ru в CSV + jpg
https://novosibirsk.cian.ru/
По умолчанию парсер должен собирать информацию ежедневного и выгружать автоматически в формате CSV.
Объект парсинга: объявления по вторичной недвижимости, новостройкам,коммерческой недвижимости и земле по Новосибирской области.
Субъект парсинга: Новосибирская область
Задача к реализации:
1. Парсинг указанных данных из ЦИАН по разделам “вторичная недвижимость”, “новостройки”, “коммерческая
недвижимость”, "коммерческая земля" и “земельные участки” в формате .CSV ежедневно.
2. Разбивка по столбцам - для каждой категории недвижимости
3. К подготовке пять типов объектов:
-Вторичная недвижимость (https://novosibirsk.cian.ru/kupit-kvartiru-vtorichka/)
-Новостройки (https://novosibirsk.cian.ru/kupit-kvartiru-novostroyki/)
- Коммерческая недвижимость (https://novosibirsk.cian.ru/cat.php?deal_type=sale&engine_version=2&offer_type=offices&office_type%5B0%5D=1&office_type%5B1%5D=2&office_type%5B2%5D=3&office_type%5B3%5D=4&office_type%5B4%5D=5&office_type%5B5%5D=7&office_type%5B6%5D=9&office_type%5B7%5D=10&office_type%5B8%5D=11®ion=4897)
-Коммерческая земля (https://novosibirsk.cian.ru/kupit-kommercheskiy-uchastok/)
-Земельные участки (https://novosibirsk.cian.ru/kupit-zemelniy-uchastok/)
4.Столбцы итогового файла CSV для каждого типа объекта (через точку с запятой)
5.Пример заполнения и столбцы в файле Cian_Data.xlsx, желательно поменять порядок и наименование столбцов на след.:
5.1 Для категорий вторичная недвижимость и новостройки
ID; Ссылка на объект (URL); Дата добавления; Дата изменения; Статус; Кол-во просмотров; Цена; Цена квадратного
метр; Город; Район ; Микрорайон; Улица; Номер дома; ГЕО (широта; долгота);
Количество комнат ; Общая площадь; Этаж ; Этажность; Материал дома
(тип стен); Тип квартиры; Тип дома; Год постройки; Наименование жилого
комплекса ; Застройщик жилого комплекса (для новостроек); Срок завершения
строительства (для новостроек); Класс дома (эконом, комфорт, бизнес); Ближайшая
станция метро; Расстояние до метро.
5.2 Для категорий земельные участки и коммерческая земля
ID; Ссылка на объект(URL); Дата добавления; Дата изменения; Статус; Кол-во просмотров; Цена; Цена
за сотку; Город; Район; Микрорайон; Улица; Номер дома; ГЕО (широта; долгота);
Площадь участка; Категория земельного участка; Канализация; Вода;
Электричество; Асфальтовая дорога; Описание; Контакты. 5.3 Для категории коммерческая недвижимость
ID; Ссылка на объект(URL); Дата добавления; Дата изменения; Статус; Кол-во просмотров; Цена; Цена
квадратного метр; Город; Район ; Микрорайон; Улица; Номер дома; ГЕО
(широта; долгота); Категория недвижимость; Описание; Контакты.
6. Каждый лот имеет свою полную персональную карточку объекта.
Информацию нужно парсить из индивидуальной карточки объекта.
Пример:
-Вторичная недвижимость https://novosibirsk.cian.ru/sale/flat/232099448/
-Земельные участки https://novosibirsk.cian.ru/kupit-zemelniy-uchastok/
7.Итоги в виде установленного скрипта на сервере и инструкции по работе с ним.
8.Выгрузка файла в формате CSV для каждой категории отдельная
8.1 Vtorichka_data.csv
8.2 Novostroiki_data.csv
8.3 Сommercial_data.csv
8.4 Сommercial_land_data.csv
8.5 Land_data.csv
9.Во вложении:
9.1 Техническое задание ТЗ_парсер_ЦИАН
9.2 Шаблон желаемого результата Cian_Data.xlsx
10. Возможность скопировать архив с фото в определённую папку и распаковать их там, с целью получения доступа к фото по ссылке.
Только для разделов "Коммерческая недвижимость", "Коммерческая земля" и "Земельные участки".
Примечание:
«Циан любит блокировать IP, с которых идут частые запросы. Блок может быть временным - нужно разгадать ReCaptcha 2, либо
постоянным - IP заносится в чёрным список и разблокировать его можно только
после обращения в тех поддержку».

Возможности работы протестировать заранее, т.к. на ресурсе-источнике есть защита.

Ответ по заявке предоставить в след. форме:
1. Стоимость услуги;
2. Срок реализации;
3. Методика реализации (язык программирования и т.п.)