Чистка сканированных документов с OpenCV (реализация в виде restAPI)

10 000 руб. за проект
13 марта 2020, 15:40 • 6 откликов • 66 просмотров
Привет!

Нужен сервис/приложение в виде API, который будет конвертировать pdf со сканами документов, чистить их от шумов и поворачивать до 90 градусов.

Ситуация:
– у нас есть сканы (цветные и ч/б) документов с офисных (А4) сканеров
– в 95% случаях сканы упакованы в PDF-файл

Общая цель:
– эти документы мы потом распознаем с помощью Tesseract и проч
– для каждого типа документа всегда есть эта предобработка, решено ее вынести в отдельный функционал/АПИ

Задачи:
– конвертировать pdf в растр с помощью pdf2image
– чистить изображение от шумов сканера (черные полосы, точки и прочее)
– поворачивать и обрезать изображение: все документы – это прямоугольники. нужно искать линии и поворачивать документ до 90 градусов, все лишнее (за пределами линий) обрезать

Все это стандартный функионал openCV «из коробки».

Описание методов АПИ:
– в АПИ отправляем pdf файл или массив картинок
– при отправке опционально можно указать параметр как обрабатываем файл (например, файл не надо поворачивать)
– в ответ даем json с массивом ссылок на готовые файлы

UI для теста:
– должен быть самый простой интерфейс для теста человеком: через форму загружаем файл > получаем готовые картинки

Реализация:
– Python
– завернуть в докер
– реализация в виде restAPI
– дока/read.me (пусть даже из 5 строк)

Бюджет готов обсудить.
Отзывы
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Заказчик
Все отлично, рекомендую!
4 года назад
R50 74942ebec9257275856f7e80149c5760
Фрилансер
Отличный заказчик, ТЗ было составлено качественно и точно, никаких проблем не было. Был всегда в связи и отвечал на вопросы вежливо и учтиво. Спасибо за сотрудничество.
4 года назад