Разработка универсального AI решения для парсинга прайс-листов

Цена договорная
20 марта 2024, 16:36 • 8 откликов • 79 просмотров
Задача: Создание инструмента на базе искусственного интеллекта для извлечения данных из прайс-листов, размещённых в различных форматах (XLSX, HTML, PDF) и с разнообразной структурой таблиц.

Требования к решению:
- Язык: Python
- Сервис: Document AI, AWS Textract, Azure AI Document Intelligence
- Автоматический анализ структуры документа для определения таблиц и извлекаемых данных.

Вход:
Ссылка на файл (Google Drive) или прямой доступ к документу.

Пример ссылки на Excel: https://drive.google.com/file/d/1hXe2nw_NdrHuVIEZ6WFbH-GgR9NLdO1TDWqD9Ot7Yzk/view

Особенности:
Возможность настройки параметров парсинга для конкретной структуры таблицы.
Извлечение данных о апартаментах в формате JSON.
Обработка специфических условий (например, продано/доступно).
Прайс-листы будут различаться по структуре и формату. Решение должно предусматривать гибкость настройки для адаптации к разным типам таблиц и документов.
Итоговый формат данных должен быть одинаковый для всех источников данных.


Пример данных:
[
{
"suite": "101",
"type": "Condo",
"model": "A",
"total size (sq ft)": 1000,
"interior (sq ft)": 800,
"exterior (sq ft)": 200,
"view": "South",
"baths": 2,
"suite pricing": 1000000,
"floorplan": "https://example.com/floorplan-101",
"sold": false,
"bedrooms": 2
}
]

Срок: 1 неделя
Оплата: крипто, перевод на карту РФ