Расчет "индекса заспамленности чата"
Цена договорная
Нужно придумать... формулу для просчета "индекса заспамленности чата".
Я работаю с тг-чатами, и мне надо более-менее в автоматическом режиме понимать, насколько этот чат живой - человечный. Ибо есть очень много спам-чатов (для примера юзернеймы: avito_chat_hammy, predprinimatel_chat, Mos_Busines... дам еще много по запросу).
Нужно придумать несколько индексов-показателей, на основе которых сможем рассчитать заспамленность чата. Работаем не с контентом (не со значением текста), а с форматом сообщений.
Например:
1. количество строк в сообщении (чем больше абзацев - тем выше индекс спама)
2. количество эмоджи деленное на число строк (если эмоджи в каждой строчке - плохо)
3. распределение длины сообщений (в живых чатах очень много коротких сообщений, и если положить их на график - то будет нормальное распределение, в спам-чатах обычно длинные сообщения)
4. число уникальных юзеров, кто пишет сообщения
5. число сообщений на одного юзера
6. количество reply (в спам-чатах не бывает реплаев, либо их показатель крайне низкий)
и так далее...
Вероятно - по каждому из пунктов можно построить свой индекс (иногда - график, например для распределения числа сообщений по их длине).
И в сумме они дадут некий итоговый индекс - главный показатель заспамленности чата.
В этой задаче не нужно программирование. Только вдумчивый грамотный подход. И четкое понимание, как просчитать ваш индекс.
Я работаю с тг-чатами, и мне надо более-менее в автоматическом режиме понимать, насколько этот чат живой - человечный. Ибо есть очень много спам-чатов (для примера юзернеймы: avito_chat_hammy, predprinimatel_chat, Mos_Busines... дам еще много по запросу).
Нужно придумать несколько индексов-показателей, на основе которых сможем рассчитать заспамленность чата. Работаем не с контентом (не со значением текста), а с форматом сообщений.
Например:
1. количество строк в сообщении (чем больше абзацев - тем выше индекс спама)
2. количество эмоджи деленное на число строк (если эмоджи в каждой строчке - плохо)
3. распределение длины сообщений (в живых чатах очень много коротких сообщений, и если положить их на график - то будет нормальное распределение, в спам-чатах обычно длинные сообщения)
4. число уникальных юзеров, кто пишет сообщения
5. число сообщений на одного юзера
6. количество reply (в спам-чатах не бывает реплаев, либо их показатель крайне низкий)
и так далее...
Вероятно - по каждому из пунктов можно построить свой индекс (иногда - график, например для распределения числа сообщений по их длине).
И в сумме они дадут некий итоговый индекс - главный показатель заспамленности чата.
В этой задаче не нужно программирование. Только вдумчивый грамотный подход. И четкое понимание, как просчитать ваш индекс.
В заказе есть исполнитель
При переводе заказа из архивного в актуальный, текущий исполнитель будет снят с задачи.
Выберите тип сделки
С безопасной сделкой вы всегда сможете вернуть средства, если что-то пойдет не так. С простой сделкой вы самостоятельно договариваетесь с исполнителем об оплате и берете на себя решение конфликтов.