Расширить python микросервис: на вход файл, на выход текст из файла

Цена договорная
29 ноября 2023, 20:09 • 13 откликов • 91 просмотр
Расширить python микросервис, который на вход принимает файл и на выход возвращает текст из этого файла.

Форматы: pdf, txt, word, и другие

Функциональные требования:

Реализовать логику парсинга любых документов:

- Очищать текстовое содержимое с помощью cleantext (уже реализовано для PDF)

- Для PDF файлов использовать pypdf.PdfReader (уже реализовано)

- Реализовать OCR парсинг: если PDF не парсится с помощью pypdf.PdfReader, то необходимо спарсить текст через OCR через https://gitlab.gnome.org/World/OpenPaperwork/pyocr

- Реализовать парсинг Word и подобных текстовых форматов

- Тексты могут быть на любых языках

- Доработки должны быть в текущем коде на Flask, весь код в одном файле

- Файлы принимаются POST запросов, результат возвращается в теле ответа


Пожалуйста, укажите примерные сроки реализации и стоимость вашей работы