Python, парсинг таблиц, OCR, распознавание данных

900 руб.за час
25 февраля 2020, 16:03 • 12 откликов • 93 просмотра
Исходная задача:
Есть изображения с табличными отчетами (медицинские анализы).
Необходимо разработать ПО, которое будет извлекать данные из таких изображений.
Отчеты могут быть различных типов, они отличаются версткой таблиц.
Сначала ПО должно определить тип отчета, а потом извлечь структурированные данные в формате JSON.
Изображения могут быть идеально ровными (конвертированными из pdf-файлов), или изображения могут быть фотографиями распечатанных отчетов.

У нас уже есть решение, оно неплохо справляется с одним типом документов. Его нужно (а) увеличить точность, (б) модернизировать для удобной работы с другими типами отчетов.

Непосредственное распознавание символов и слов происходит с помощью OpenCV, далее начинается работа с матрицами, геометрией и тд.

Желательно что бы кандидат:
- имел опыт работы с OpenCV и распознованием слов/символов
- умел пользоваться numpy
- умел работать с изображениями и их преобразованием

Загрузки примерно на 30-50 часов в месяц.

Напишите чем подобным Вы занимались.