Парсинг сайта с изображениями

Цена договорная
01 сентября 2021, 13:13 • 26 откликов • 179 просмотров
Необходимо написать python парсер, который будет регулярно (раз в сутки?) проходить по сайту, находить новые статьи и парсить их.

Контент:

Статья (текст + заголовок)

Изображения из статьи - их будет штук по 50 у каждой статьи, нужно каждое изображение скачать отдельно, записать в базу и сохранить на диск с id соответвутствующим id записи в базе + указать в базе связь с id статьи

Тэги - статьи обладают тэгами. нужно проверить что указанного тэга еще нет в базе и либо добавить связь тэга со статьей, либо добавить тэг и затем связь




из сложностей: указанный сайт в cloudflare