Разработка программы для извлечения текста из файлов
5 000 руб. за проект
Требуется, используя язык программирования Python (3 версии) создать программу для извлечения текста из файла/архива (только текстовая информация).
Форматы файлов, из которых нужно извлекать текст:
Программа должна представлять из себя подключаемый модуль содержащий функцию, которая на вход принимает url ссылку на файл, после чего, делает следующее:
Если это файл (doc, docx, html, xls, xlsx, rtf):
После извлечения текста из файла, и его записи в .txt файл, программа должна производить поиск ИНН в извлечённом тексте. Если ИНН был найден, программа должна возвращает его значение, если ИНН не был найден, программа должна выводить сообщение о том, что файл не содержит ИНН
Готов ответить на любые возникшие вопросы,
Форматы файлов, из которых нужно извлекать текст:
- .doc
- .docx
- .html
- xls
- xlsx
- .rtf
- в отдельную категорию выношу .doc файлы 1997-2003 годов.
- .zip
- .rar
Программа должна представлять из себя подключаемый модуль содержащий функцию, которая на вход принимает url ссылку на файл, после чего, делает следующее:
Если это файл (doc, docx, html, xls, xlsx, rtf):
- Извлекает текст из файла, после чего, создаёт .txt файл куда помещает извлечённый текст.
- Поочерёдно извлекает
текст из каждого файла архива, содовая при этом .txt файл для размещения в нём
извлечённого из файла архива текста.
После извлечения текста из файла, и его записи в .txt файл, программа должна производить поиск ИНН в извлечённом тексте. Если ИНН был найден, программа должна возвращает его значение, если ИНН не был найден, программа должна выводить сообщение о том, что файл не содержит ИНН
Готов ответить на любые возникшие вопросы,
Отзывы
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.