Парсинг rss ссылок и веб страниц

10 000 руб. за проект
03 сентября 2021, 19:20 • 6 откликов • 103 просмотра
Есть микросервис на python, который должен парсить около 17000 rss ссылок.
Каждая rss ссылка хранит ссылку на сайт. Большинство сайтов имеют общую структуру и нужны данные лежат в мета тэгах.
На данный момент нужно улучшить работу парсера.

Задача:
Нужно парсить сайт, который указан в rss ссылке и сохранять следующую информацию
1. Название статьи
2. Авторы
3. Дата публикации
4. Ссылка на картинку
5. Абстракт(короткое описание)

Вся информация берется только из метатэгов.
Основная проблема - иногда метатэг хранит обрезанный абстракт. Нужно брать обрезанный абстракт и искать в остальной странице недостающий кусок текста. Сейчас это уже реализовано, но работает плохо

Для понимания концепции можно скачать приложение для android из playmarket - Allpapers

Бюджет указан приблизительный
В отклике укажите телеграм