Разработка парсера для обработки документов из директории и сохранения в базу данных

Цена договорная
24 сентября 2024, 10:14 • 18 откликов • 107 просмотров
Описание задачи:

Необходимо расширить функциональность системы, создав отдельный Python-парсер для обработки документов из заданной директории и сохранения извлеченного текста в базу данных PostgreSQL. Парсер для обработки документов уже существует, нужно либо доработать его, либо на его основе написать новый, но с обязательным фиксом кодировки doc и docx документов.

Что нужно сделать:

• Ознакомиться с текущей архитектурой парсера и базы данных для понимания интеграции.
• Разработать самостоятельный парсер для обработки документов из указанной директории.
• Обеспечить поддержку различных форматов документов, включая DOC, DOCX, ODT и другие.
• Сохранять извлеченный текст в отдельной таблице в базе данных PostgreSQL.
• Обеспечить эффективную работу парсера при обработке большого количества файлов.

Капча:

Пожалуйста, ответьте на вопрос: сколько будет 5 + 5?
Укажите телеграм для связи