Разработка программы для извлечения текста из файлов

5 000 руб. за проект
18 января 2020, 16:04 • 28 откликов • 148 просмотров
Требуется, используя язык программирования Python (3 версии) создать программу для извлечения текста из файла/архива (только текстовая информация).

Форматы файлов, из которых нужно извлекать текст:
  • .doc
  • .docx
  • .html
  • xls
  • xlsx
  • .rtf
  • в отдельную категорию выношу .doc файлы 1997-2003 годов.
Форматы архивов, из которых нужно извлекать текст:
  • .zip
  • .rar
Механизм работы программы:
Программа должна представлять из себя подключаемый модуль содержащий функцию, которая на вход принимает url ссылку на файл, после чего, делает следующее:
Если это файл (doc, docx, html, xls, xlsx, rtf):
  • Извлекает текст из файла, после чего, создаёт .txt файл куда помещает извлечённый текст.
Если это архив (rar, zip):
  • Поочерёдно извлекает
    текст из каждого файла архива, содовая при этом .txt файл для размещения в нём
    извлечённого из файла архива текста.
Поиск ИНН в фале:
После извлечения текста из файла, и его записи в .txt файл, программа должна производить поиск ИНН в извлечённом тексте. Если ИНН был найден, программа должна возвращает его значение, если ИНН не был найден, программа должна выводить сообщение о том, что файл не содержит ИНН

Готов ответить на любые возникшие вопросы,
Отзывы
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Заказчик
Получил ровно то, что хотел. Работой остался доволен. Всем рекомендую.
5 лет назад
Отличный заказчик, частый онлайн, отвечает на все вопросы подробно и обсуждает все мелочи, поэтому работа идет быстро.
5 лет назад