Парсинг

15 000 руб. за проект
06 сентября 2021, 19:58 • 9 откликов • 205 просмотров
Есть микросервис на python, который должен парсить около 17000 rss ссылок.
Каждая rss ссылка хранит ссылку на сайт. Нужно парсить сайты
Большинство сайтов имеют общую структуру и нужны данные лежат в мета тэгах.
На данный момент нужно улучшить работу парсера.

Задача:
Нужно парсить сайт, который указан в rss ссылке и сохранять следующую информацию
1. Название статьи
2. Авторы
3. Дата публикации
4. Ссылка на картинку
5. Абстракт(короткое описание)

Вся информация берется только из метатэгов.
Основная проблема - иногда метатэг хранит обрезанный абстракт. Нужно брать обрезанный абстракт и искать в остальной странице недостающий кусок текста. Сейчас это уже реализовано, но работает плохо

Для понимания концепции можно скачать приложение для android из playmarket - Allpapers

Бюджет указан приблизительный
В отклике укажите телеграм