OCR: Распознавать текст документов и экспортировать в JSON

7 000 руб. за проект
25 февраля 2020, 16:17 • 5 откликов • 61 просмотр
Привет!

Есть сканы документов (договоры), по сути это просто текст разбитый на абзацы.

Нужно:
– подготовить картинку к обработке (повернуть, кропнуть, etc)
– разрезать картинки на абзацы (заголовок + текст). это нужно потому что и tesseract быстрее и лучше мелкие куски распознает + так же хранить это будем
– почистить распознанный текст (убрать мусорные символы, которые не являются буквами)
– полученное сохранить как json примерно так <document><header></header><text></text><header></header><text></text></document>

Реализация:
– скорее всего Python
– все завернуть в докер, так чтобы можно было просто контейнер положить в нам swarm и все
– сервис должен быть реализован как rest API
мы отправляем в АПИ файл (или массив файлов), оно возвращает нам json с результатами
– также для тестирования должен быть просто UI для отправки файла и просмотра результата распознания

В общем, задача несложная, нужно все сделать четко и красиво.

В ответе пишите про свой опыт + сразу контакт в телеграме.

Отзывы
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Заказчик
Исполнитель не выполнил простую задачу. Неделю каждый день что-то обещал, в итоге просто пропал. В процессе «работы» на связи был редко.
Не рекомендую.
4 года назад