R50 07e8e55842131ced568184067bdf4c34
Разработка / Тимлид

NLP кластеризация пользователей vk

Добавлено 09 сен 2021 в 21:41
Исследование психометрического распределения (кластеризации) пользователей социальной сети Я исследую пользователя vk И его друзей.

Цель исследования: На основании лексической информации о пользователе, сделать вывод о его психо-типе, сгруппировать друзей пользователя по этому параметру. Отнести самого пользователя к той или иной группе. Рекомендовать пользователю друзей.

Обоснование исследования: Ключевым подходом к решению задачи, определяющим именно психометрическую типизацию пользователей, явлется выбор источников информации. Я опираюсь на то, что пользователь пишет о себе(осознаваемый манифест) во-первых и на скрытый лексический контекст(неосознаваемый манифест) в таких действиях пользователя как: Выбор сообществ и Выбор музыки. Такую активность(со скрытым манифестом) я описываю текстовым формальным опсианием Групп(сообществ) и жанров музыки.

Метод исследования: Группирую пользователей по эмбеддингам (Word2Vec) на основе полученной по вышеописанному принципу текстовой информации.

Примечание: Я группирую пользователей по сообществам, рассматривая сообщество не как еидницу вектора некоего эмбединга пользователя, а строю для каждого сообщества свой эмбеддинг, таким образом два схожих сообщества будут иметь схожий эмбеддинг. И уже по этим эмбедингам строю эмбеддинг пользователя, таким образом схожие сообщества не рассматриваются как две разных единицы измерения вектора, а имеют конгруентное влияние.

Выводы. С практической точки зрения я оцениваю резалуьтат как удовлетворительный. Гипотеза о наличии психологической метрики, обуславливающей стиль текстов пользователя его характером требует более тащетльного исследования.

Я искал корелляцию между текстами, описывающими сообщества пользователя и текстом написанным собственноручно пользователем в качестве своего описания профиля.

На основе такой корелляции я хотел сгруппировать пользователей и сделать вывод о их стабильном внутри каждой группы психотипе.

Класстеризация пользователей по текстам описаний сообществ и описаний личных профилей оказалась неконгруэнтной.

Кластеризация же пользователей по эмбеддингам сообществ показала доверительный результат. В частном слуае группа пользователей из 100+ человек была разделена на две подгруппы с устойчивой корелляцией внутри группы.

66ab97f59d E0f372bd62 3473e9d105 1fb0e3d781 9136dd89b2 422b8ea816