Количество застройщиков и ЖК в РФ (автоматический сбор данных)

2 000 руб. за проект
19 августа 2020, 12:00 • 4 отклика • 55 просмотров
Нам нужно узнать сколько жилых комплексов и застройщиков на ведущих порталах о недвижимости.
Мы отобрали 4 сайта, где сосредоточена основная информация:

• Яндекс Недвижимость - https://realty.yandex.ru/
• Циан - http://cian.ru/
• Домофонд - https://www.domofond.ru/
• ЕРЗ - https://erzrf.ru/

Требуемые нам данные по количеству ЖК и застройщиков можно получить по маскам URL, следовательно, нам нужно каким-то образом получить базу всех URL этих сайтов.

Нам нужно получить:

• Количество ЖК и застройщиков в Яндекс Недвижимости
• Количество ЖК и застройщик в ЦИАНе, обратите внимание, что некоторые ЖК в ЦИАНе вынесены в поддомены, а некоторые находятся внутри портала
• Количество ЖК в Домофонде
• Количество ЖК, застройщиков (на уровне брендов) и застройщиков на уровне юр лиц с сайта ЕРЗ.

Решить задачу можно 2-мя путями:

• По сеошному, посмотреть через различные сервисы (как правило, они платные) кол-во страниц в индексе каждого сайта и извлечь по маскам и получить количество нужных.
• Написав скрип, который пройдет по всем этим сайтам, но крупные сайты просто так не дают себя парсить, например, я не смог софтом Xenu получить все урлы в Домофонде и Яндекс Недвижимости, хотя с мелкими сайтами, такое уже делал.

Рассмотрим оба варианта, но второй предпочтительнее, тк в будущем все равно придется парсить эти сайты и наработку могут пригодится.

Маски в ТЗ во вложении.

Пишите цену оставляйте телеграм, задача разовая (писать программу, которая будет периодически выполнять эту задачу не нужно).
Файлы