Решить задачу по кластеризации твитов пользователей на Python

Цена договорная
07 января 2022, 17:43 • 8 откликов • 72 просмотра
Добрый день!

Есть задача, в которой есть дата-сет по твитам пользователей. Я самостоятельно сделала все необходимые преобразования по твитам (очистила от не нужных знаков).

Задача: необходимо помочь разделить твиты на кластеры при помощи алгоритма K-means модуля sklearn.cluster, определить оптимальное кол-во кластеров, визуализировать полученное значение с помощью TSNE преобразования и для каждого из получившихся кластеров вывести топ 100 слов, которые уникальны для каждого кластера (все стоп-слова не должны входить в этот список, для этого уже загрузила спец. модуль stopwords из nltk.corpus).

Часть написанного кода уже есть, необходимо помочь реализовать саму кластеризацию.