Java Topic Modeling

Цена договорная
22 мая 2024, 09:59 • 1 отклик • 45 просмотров
Java Topic Modeling, сделать до завтрашнего утра.

Анализ текстовых данных с использованием тематического моделирования (topic modeling) и использование результатов для объединения сообщений в группы.

Тематическое моделирование различными методами.

Варианты типа данных для исследования:

- Научные статьи;

- Относительно большие сообщения в СМИ (размером от 4-х предложений и до 1 листа А4).

Распределить сообщения по репрезентативным группам с использованием topic modeling

Если более человеческим языком, то нужно:

1. Пропарсить в интернете научные статьи или сообщения в СМИ

2. Применить к полученным данным алгоритмы тематического моделирования (2 будет достаточно)

3. Объединить данные по группам исходя из пункта 2

4. Парсинг, тематическое моделирование и объединение данных по группам должно быть в рамках одного запуска программы. То есть запускаем программу и на выходе получаем сообщения, разделенные на репрезентативные группы. В идеале, если возможно, указание для каждой группы темы(или тега), по которой они разделены.

5. Для парсинга лучше всего использовать комментарии к постам каких-нибудь официальных СМИ, например Lenta.ru, Gazeta.ru или Russian.rt.com.