Написать скрипт извлекающий структуированные данные из pdf
75 000 руб. за проект
Задача состоит из двух частей:
1. Написать скрипт, который с через HTTP-запрос возвращает текстовый файл, полученный в результате распознавания PDF-файла на русском языке. Попробовать с помощью Tesseract, если качество распознавания будет не очень - через Google API.
2. Написать скрипт, который через HTTP-запрос из текстового файла будет извлекать структуированные данные JSON с помощью Томита-парсера (работа именно через него).
Речь идет о текстах судебных актов арбитражного суда и публикациях в делах о банкротстве.
А) Для всех судебных актов нужно, чтобы скрипт с помощью Томита-парсера Яндекса извлекал:
Оплата через безопасную сделку. В дальнейшем, если все понравится работа напрямую на регулярной основе.
1. Написать скрипт, который с через HTTP-запрос возвращает текстовый файл, полученный в результате распознавания PDF-файла на русском языке. Попробовать с помощью Tesseract, если качество распознавания будет не очень - через Google API.
2. Написать скрипт, который через HTTP-запрос из текстового файла будет извлекать структуированные данные JSON с помощью Томита-парсера (работа именно через него).
Речь идет о текстах судебных актов арбитражного суда и публикациях в делах о банкротстве.
А) Для всех судебных актов нужно, чтобы скрипт с помощью Томита-парсера Яндекса извлекал:
- Дата вынесения судебного акта;
- Дата оглашения резолютивной части (если есть);
- Наименование суда, вынесшего судебный акт;
- Номер дела;
- Судья, вынесший судебный акт;
- Тип судебного акта: решение, определение, постановление;
- Вид судебного акта (в дальнейшем потребуется расширение количества видов): решение о признании банкротом, определение о введении процедуры реструктуризации долгов, определение о включении в реестр требований кредиторов, определение о завершении процедуры, определение о прекращении производства по делу, определение об освобождении от обязанностей арбитражного/финансового управляющего, определение о принятии заявления к производству, определение о принятии жалобы к производству, определение о продлении процедуры);
- В зависимости от вида судебного акта нужно извлекать дополнительные данные (в ТЗ все будет расписано);
- В какой срок может быть обжалован судебный акт.
- Вид публикации (публикация о завершении процедуры банкротства, публикация о признании гражданина банкротом, публикация о введении процедуры реструктуризации долгов, публикация об освобождении от обязанностей арбитражного управляющего, публикация о прекращении производства по делу).
- Дополнительные данные в зависимости от вида публикации (например на какой срок введена процедура банкротства).
Оплата через безопасную сделку. В дальнейшем, если все понравится работа напрямую на регулярной основе.
- Файлы
Отзывы
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.