Детектирование таблиц Python

35 000 руб. за проект
17 июля 2024, 11:43 • 17 откликов • 176 просмотров
Необходимо разработать класс, который принимает может принимать на вход изображение / путь к изображению / путь к документы. На выход дает массив таблиц

Возможные входные данные:
- Картинки (png , jpg)
- Файлы pdf (как цифровые документы, так и сканы с текстовым слоем)
* на изображении может быть несколько таблиц


Функционал класса:
- Набор функций предварительной обработки изображения
- Функции детектирования таблиц
- Функции для визуальной отладки (debug)

Возвращать необходимо (в формате json)
- Список таблиц с координатами (bounding box)
- Для каждой таблицы координаты
- Координаты линий разделителей колонок
- Координаты линий разделителей рядов
- Координаты ячейки
- Содержание ячейки (текст)
+
Массив таблиц в формате pd.Dataframe