Расчет "индекса заспамленности чата"

Цена договорная
09 июня 2023, 20:58 • 8 откликов • 70 просмотров
Нужно придумать... формулу для просчета "индекса заспамленности чата".

Я работаю с тг-чатами, и мне надо более-менее в автоматическом режиме понимать, насколько этот чат живой - человечный. Ибо есть очень много спам-чатов (для примера юзернеймы: avito_chat_hammy, predprinimatel_chat, Mos_Busines... дам еще много по запросу).

Нужно придумать несколько индексов-показателей, на основе которых сможем рассчитать заспамленность чата. Работаем не с контентом (не со значением текста), а с форматом сообщений.

Например:
1. количество строк в сообщении (чем больше абзацев - тем выше индекс спама)
2. количество эмоджи деленное на число строк (если эмоджи в каждой строчке - плохо)
3. распределение длины сообщений (в живых чатах очень много коротких сообщений, и если положить их на график - то будет нормальное распределение, в спам-чатах обычно длинные сообщения)
4. число уникальных юзеров, кто пишет сообщения
5. число сообщений на одного юзера
6. количество reply (в спам-чатах не бывает реплаев, либо их показатель крайне низкий)

и так далее...

Вероятно - по каждому из пунктов можно построить свой индекс (иногда - график, например для распределения числа сообщений по их длине).
И в сумме они дадут некий итоговый индекс - главный показатель заспамленности чата.

В этой задаче не нужно программирование. Только вдумчивый грамотный подход. И четкое понимание, как просчитать ваш индекс.