Модуль OCR на python 3.11 +

100 000 руб. за проект
29 ноября 2024, 09:43 • 12 откликов • 116 просмотров
Необходима современная замена tesseract-oct
Необходимо разработать модуль (набор классов) для извлечения текстового слоя с изображения

ОС: Ubuntu 22.04

Требования:
- Предобученные модели для Русского и Английского языка
- Детектирование текстовых блоков (очень круто, если сможет адаптироваться, например, к 2м колонкам, но не обязательно)
- Извлечение текстового слоя с координатами и вероятностью
- Наложение текстового слоя на картинку с генерацией pdf
- Распознавание текста под наклоном
- Распознавание текста не на 1 прямой (например, на сшивки книги листы загибаются)
- Как можно меньше препроцессинга (желательно вообще без)

ВОЗМОЖНОСТЬ ДО ОБУЧЕНИЯ
- До-обучение детектирования текстовых блоков
- До-обучение распознавания символов
- Функционал создания обучающей выборки и возможности ее ручного исправления и корректировки

+ Минимальная инструкция ко всему этому добру