Парсер нескольких сайтов

Цена договорная
28 марта 2021, 16:45 • 8 откликов • 88 просмотров
Сделать парсер для нескольких сайтов, без разбора html страниц. Просто берем, собираем ссылки через sitemap, заходим на ссылку, выкачиваем html страницу полностью загруженного сайта, сохраняем в mongoDB (лучше в нее, на запись она работает быстро).

Один сайт около 500 000 страниц, другие около 100 000.

Собирать полностью все эти страницы и передевать мне не надо, просто собрать, проверить первые 10к по каждому сайту, чтобы работало, после установить на сервер, или распределить на несколько, и пусть работает, собирает остальные.

Установка нужна будет на дроплеты digitalocean, а для smart proxy есть Zyte. Т.е. чтобы парсер не блокировали, нужно будет продумать работу со смартпрокси Zyte.