Лабораторная работа Работа с библиотекой Natural Language Toolkit
1 200 руб. за проект
Вообщем задача такая, более подробная информация в файле(Word), и дополнительно есть как это примерно реализовывать в TXT файлах. По сути тут тут не очень сложно, но из-за нехватки времени выкладываю.
Ход выполнения работы
Задание для выполнения:
1 – этап экспериментов (Анализ структуры отдельного корпуса (текста))
1)Выбрать корпус для экспериментов (из NLTK или загрузить свой)
2)Провести статистический анализ текста:
1)Выбрать 2-3 корпуса для экспериментов (из NLTK или загрузить свои)
2)Провести статистический анализ этих корпусов по плану задания 1.
Отчетность по лабораторной работе
Указанна в конце файла(Word).
Ход выполнения работы
Задание для выполнения:
1 – этап экспериментов (Анализ структуры отдельного корпуса (текста))
1)Выбрать корпус для экспериментов (из NLTK или загрузить свой)
2)Провести статистический анализ текста:
- Длина текста, словарь текста, число различных слов в словаре, рассчитать параметр лексического разнообразия текста.
- Определить число предложений, слов (провести токенизацию).
- Убрать стоп слова (предлоги, союзы, управляющие слова) и построить частотный график встречаемости слов в тексте. Кумулятивный график частотного распределения слов.
- Выделить частотные слова, относящиеся к одной леме (провести лематизацию)
- На основе результатов лематизации вывести на печать слова, определяющие тематику текста (претенденты на ключевые слова). Выделить по частоте и длине.
- Провести исследование тематической структуры текста (в каких частях текста о чем говориться) – исследовать частотное расположение слов в тексте - построить график дисперсии.
- Распечатать ключевые слова (частотные слова), относящиеся к наиболее тематически важному разделу текста (определить по графику дисперсии). Для них построить частотный график встречаемости слов в тексте. Кумулятивный график частотного распределения слов.
- Для ключевых слов найти им соответствующие биграммы и коллокации в тексте, оценить их частотность. Экспертным методом проверить соответствуют ли определенные словосочетания важными для уточнения тематики текста.
- Провести сравнение по статистическим параметрам: словарь текста, число различных слов в словаре, рассчитать параметр лексического разнообразия те (насколько ) текста.
- Исследовать тематические структуры текстов (в каких частях текстов о чем говориться) – исследовать частотное расположение слов в тексте - построить график дисперсии.
- По проведенным исследованиям сделать отчет с заключением о статистике, стилистике, тематике исследуемых текстов.
- Отчет оформляется в Word с описанием проведенного исследования
- Дайте название своему проекту с экспериментами (щелкнув на имя блокнота в правом верхнем углу, переименуйте). Все ваши эксперименты сохраняются на вашем гугл диске.
1)Выбрать 2-3 корпуса для экспериментов (из NLTK или загрузить свои)
2)Провести статистический анализ этих корпусов по плану задания 1.
Отчетность по лабораторной работе
Указанна в конце файла(Word).
Отзывы
Аноним
Алексей предоставил точное ТЗ. В этом проекте научился применять кумулятивный график и график дисперсии по анализу текстовых документов. Понравилось работать с ним! Рекомендую
4 года
назад
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.