NLP (nltk или spacy) на русском

1 500 руб. за проект
07 декабря 2021, 12:44 • 0 откликов • 25 просмотров
Добрый день! наткнулся я на такую лабораторную https://freelance.habr.com/tasks/341931
Мне тоже нужно найти решение этих задач.
Условия:
-Тексты на русском языке.
-Можно использовать любые библиотеке на python.
-Задание нужно сделать в google colab.

Нужно в частности:
-На основе результатов лематизации вывести на печать слова, определяющие тематику текста (претенденты на ключевые слова). Выделить по частоте и длине.
-Провести исследование тематической структуры текста (в каких частях текста о чем говориться) – исследовать частотное расположение слов в тексте - построить график дисперсии.
-Распечатать ключевые слова (частотные слова), относящиеся к наиболее тематически важному разделу текста (определить по графику дисперсии). Для них построить частотный график встречаемости слов в тексте. Кумулятивный график частотного распределения слов.
-Для ключевых слов найти им соответствующие биграммы и коллокации в тексте, оценить их частотность. -Экспертным методом проверить соответствуют ли определенные словосочетания важными для уточнения тематики текста.
-Провести сравнение по статистическим параметрам: словарь текста, число различных слов в словаре, рассчитать параметр лексического разнообразия те (насколько ) текста.
-Исследовать тематические структуры текстов (в каких частях текстов о чем говориться) – исследовать частотное расположение слов в тексте - построить график дисперсии.
-По проведенным исследованиям сделать отчет с заключением о статистике, стилистике, тематике исследуемых текстов.