Распознавание текста со сканов документов

150 000 руб. за проект
27 мая 2022, 14:05 • 20 откликов • 222 просмотра
Срок: 1-1.5 месяцев
Цена: обсуждаемая величина и зависит от того, какой результат вы готовы выдать в конце срока. Также готов рассмотреть команду специалистов.


Добрый день.

Задача:

Есть сканы договоров с приложениями (спецификациями). Необходимо распознать текст с этих сканов и среди этого текста найти необходимые блоки информации, такие как информация о продукции (перечень, стоимость), реквизиты Сторон, наличие печатей/подписей.

Основная сложность:
1) информация о предмете договора содержится в табличной форме в спецификациях. Внешний вид спецификации чрезвычайно вариативен;
2) последовательность разделов, а следовательно и местоположение нужной информации, может меняться.

Условия:
1) в разработке можно использовать ПО только с открытым исходным кодом и свободно распространяемом (к примеру, Tesseract);
2) мне, как заказчику, по окончанию сотрудничества и после оплаты передается весь исходный код разработки;
3) заключается договор ГПХ.

UPD.
1) есть только сырые данные в виде архива сканов документов
2) среда разработки - в идеале pytorch, но можно и tensorflow/keras
3) примеры спецификаций приложил
4) в каком виде должен быть результат - модуль, который получает на вход сканы (pdf/jpeg) и выдает xls/json с требуемой информацией
Файлы