Написать скрипт извлекающий структуированные данные из pdf

75 000 руб. за проект
09 января 2020, 13:21 • 24 отклика • 146 просмотров
Задача состоит из двух частей:
1. Написать скрипт, который с через HTTP-запрос возвращает текстовый файл, полученный в результате распознавания PDF-файла на русском языке. Попробовать с помощью Tesseract, если качество распознавания будет не очень - через Google API.
2. Написать скрипт, который через HTTP-запрос из текстового файла будет извлекать структуированные данные JSON с помощью Томита-парсера (работа именно через него).


Речь идет о текстах судебных актов арбитражного суда и публикациях в делах о банкротстве.
А) Для всех судебных актов нужно, чтобы скрипт с помощью Томита-парсера Яндекса извлекал:
  • Дата вынесения судебного акта;
  • Дата оглашения резолютивной части (если есть);
  • Наименование суда, вынесшего судебный акт;
  • Номер дела;
  • Судья, вынесший судебный акт;
  • Тип судебного акта: решение, определение, постановление;
  • Вид судебного акта (в дальнейшем потребуется расширение количества видов): решение о признании банкротом, определение о введении процедуры реструктуризации долгов, определение о включении в реестр требований кредиторов, определение о завершении процедуры, определение о прекращении производства по делу, определение об освобождении от обязанностей арбитражного/финансового управляющего, определение о принятии заявления к производству, определение о принятии жалобы к производству, определение о продлении процедуры);
  • В зависимости от вида судебного акта нужно извлекать дополнительные данные (в ТЗ все будет расписано);
  • В какой срок может быть обжалован судебный акт.
Б) Из текста публикации о банкротстве извлекать с помощью Томита-парсера:

  • Вид публикации (публикация о завершении процедуры банкротства, публикация о признании гражданина банкротом, публикация о введении процедуры реструктуризации долгов, публикация об освобождении от обязанностей арбитражного управляющего, публикация о прекращении производства по делу).
  • Дополнительные данные в зависимости от вида публикации (например на какой срок введена процедура банкротства).
В дальнейшем будет расширяться количество видов публикаций и судебных актов. Поэтому можно сказать, что работа на текущем ТЗ не остановится.


Оплата через безопасную сделку. В дальнейшем, если все понравится работа напрямую на регулярной основе.
Файлы
Отзывы
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Заказчик
Отличный исполнитель. Буду обращаться вновь.
5 лет назад
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Фрилансер
 
5 лет назад