Классификация файлов/документов по содержанию

9 999 руб. за проект
17 июня 2020, 17:25 • 8 откликов • 86 просмотров
Такая задача: есть куча корпоративных документов (уставы, приказы, балансы и тд). Они в разных форматах: сканы, pdf, doc, xls, jpg/png. Нужно программно определять что это за документ.
То есть у нас есть фиксированный перечень типов документов. И есть какие-то признаки у каждого документа.
Реализация должны быть в виде API: мы в сервис запросом пачку документов, а он асинхронного их обработал и вернул json с перечнем файлов и указанием типа.

Очевидно, нужен какой-то комбинированный подход и через OCR и через парсинг doc/xls файлов.
Скорее всего надо написать какие-то регулярки, которые будут искать вхождение определенного текста в документе. А также учитывать вес слова в документе. Например слово «устав» может встречаться в любом документе, но в документе с типом УСТАВ оно будет иметь больший весь (повторяться чаще).

Может как-то еще. В OCR опыт хороший, если что подключу человека.

Реализация предпочтительна на питоне.

Сказу оставляйте в ответе телеграм.