Обучить нейросеть распознавать текст с pdf,извлекать кратк. содержание

Цена договорная
06 декабря 2022, 21:28 • 8 откликов • 87 просмотров
Нейросеть на python, которая будет выносить краткое содержание из текста. Прилагается файл pdf, его краткое содержание должно получится "Во исполнение КИБ".
https://drive.google.com/file/d/1dVE1h3fvt8I49IaXj...

Должен быть предоставлен исходный код, в нём комментарии своих действий(коротко описать функции, переменные):

Оставлю дополнительное сообщение заказчика на всякий случай:
"тут будет не одна нейронка. Одна будет считывать текст, а другая уже будет выделять тематику
Для того, чтобы сохранять вычислительную оптимальность, можно сделать трёхуровневую архитектуру:
1) Выделяем текст нейронкой
2) Считываем текст простой нейронкой
3) Третьей нейронкой (похожей на BERT) выделяем тематику текста
Так мы сможем с помощью относительно лёгких моделек решить данную задачу. Плюс, так как модельки лёгкие, то слишком много данных не потребуется, а результат будет достаточно стабильным.
Ту же нейронку для считывания символов можно будет обучить на модифицированном MNIST, например. Для выделения тематик также есть датасеты и, так как нам не нужно прямо переводить текст в другой текст, а нужно сгенерировать лишь небольшой список тем (либо вообще одну), то моделька для этого также будет не слишком тяжеловесной, хотя она будет самой большой компонентой модели"
Файлы