Парсер научных статей - разбор списка литературы

8 000 руб. за проект
05 июля 2019, 13:37 • 3 отклика • 42 просмотра
Ищем на долгосрочное сотрудничество разработчика с опытом обработки
текстов. Примерная задача описана ниже, детали совместно обсуждаются.
Больше всего приветствуется разработка на C#, но другие варианты тоже
рассматриваем.

Необходимо разработать парсер текстов статей.
Примеры:
https://www.ncbi.nlm.nih.gov/books/NBK8435/
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC18557...
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC27535...
Тексты могут быть как в примерах, или же они могут быть полученны путем извлечения
текстового слоя PDF
Необходимо выделять:
● Заголовки и пункты
● Текст, связанный с заголовками
● Строить иерархическую структуру документа (примерно как автоматическое
построение оглавления)
● Автоматически выделять ключевые слова и словосочетания
● Разбирать список литературы (выделять авторов, названия статей, географию, дату)
● Осуществлять поиск в документе имен авторов статьи
● Осуществлять поиск цитат в тексте документа (по формальным признакам ) и
соотнесение их со ссылкой
Отзывы
Avatar r50 a6ce93fe35b158fd29ba0e8681c918c22117160e9586a56eee4ffbc20df9bda1
Заказчик
Задача была довольно сложная и нестандартная, но Максим справился. Риски и сложности почти сразу правильно оценил, сроки выдержал. В процессе реализации были вопросы, какими способами лучше делать, обсуждали совместно, к моему мнению прислушивался.
5 лет назад