Извлечение данных из документов в формате docx, разработка на Python

2 000 руб. за проект
14 декабря 2022, 13:23 • 6 откликов • 55 просмотров
Проект из Колледжа.
Можете предлагать свою цену, если она будет обоснована.
Задача заключается в разработке утилиты с помощью программы Python, которая
способна из файлового массива выделить файлы в формате DOCX. Если первое
слово в документе – «Акт», то необходимо извлечь часть текста документа,
начинающуюся после слова «Акт» и заканчивающуюся перед фразой «Мы,
нижеподписавшиеся».
Методические рекомендации:
  1. Следует определить, относится ли документ к типу «Акт». В качестве критерия предлагается следующий набор признаков: а). текст документа начинается со слова «акт», б). в тексте встречается фраза «мы, нижеподписавшиеся»
  2. Следует выделить для поиска метаданных часть текста с начала документа до фразы «мы, нижеподписавшиеся».
  3. Значения атрибутов «Организация-заказчик», «Организация-исполнитель», «Скважина», «Месторождение», «Лицензионный участок» и «Площадь» употребляются в тексте, как правило, вместе с наименованием атрибутов. Примеры: ПлощадьВерхнекамовская, Скважина № 1, Организация – заказчик: ООО «Газпром добыча Красноярск» и т.п.
Перечень документов пришлю лично
Отзывы
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Заказчик
Задача была выполнена отлично и быстро, фрилансер хорошо справился со своим заданием)
2 года назад
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Фрилансер
Быстро списались и я приступил к работе. Чёткое тз, оперативно отвечал на все вопросы. Рекомендую
2 года назад