Объяснить как реализовать 3ий подход из статьи ABBYY про invoice

5 000 руб. за проект
24 октября 2019, 09:13 • 1 отклик • 24 просмотра
https://habr.com/ru/company/abbyy/blog/440310/
Вот искомая статья. Вот третий вариант.

Третий подход – построение семантического представления документа без привязки к типу документа, т.е. когда мы не знаем, что перед нами за документ, но пытаемся это понять в процессе обработки. На вход сети подается совокупность слов документа с их различными признаками (например, содержит ли слово только буквы или является ли оно числом), геометрическим расположением слов (координаты, отступы) и с различными выявленными при анализе изображения разделителями и связями, а на выходе получаем для каждого слова свой определенный набор характеристик. По полученным характеристикам формируются различные наборы гипотез возможных полей или таблиц, которые в дальнейшем перебираются и оцениваются дополнительным классификатором. Затем выбирается наиболее достоверная гипотеза структуры и содержания документа.

Интересует только мнение практика, который сталкивался с подобной задачей - production/MVP/прототип