TGTGInsightтелеграм анализLIVE / telegram public index
← шиза от вадима🍎
шиза от вадима🍎 avatar

TGINSIGHT POST

Post #155

@vadimfedenko

шиза от вадима🍎

Прегледи220Брой прегледи
Публикувано16.0216.02.2026 г., 14:20
Съдържание на публикацията

Съдържание

Параллельно я делал тематическую кластеризацию сообщений на темы через BERT — взглянуть, как в диалогах одни темы перетекали в другие. Отсюда возникла мысль: что если взять энтропию Шеннона и сосчитать непредсказуемость поднимаемых тем, а не отдельных слов? Оказалось, энтропия Шеннона по темам — мой конёк. В любых беседах и чатах я лидер по метрике. Отсюда и «шиза» этого канала, где после постов об ИИ и кашалотах следует NLP-анализ. Было бы интересно собрать архив популярных ТГ-каналов, и прогнать на схожем анализе. Если кто-то так сделает и пришлёт мне архив — я сделаю анализ и опубликую статистику. (Проще всего будет зайти пустым аккаунтом во все каналы и экспортировать общую историю) Открыл тут ещё много любопытных метрик. Если собрать взвешенный граф по количеству ответов/обращений людей друг к другу и кластеризировать граф по весу — можно увидеть структуру беседы, где точно видна демократичность (есть ли у беседы лидер или структура размыта), видны отдельные кластеры друзей, ядро актива, переферия добавленных, и так далее.​ Если сосчитать, какая доля слов в сообщении — повторы из предыдущих N сообщений (я взял 8), можно увидеть нечто вроде эмпатичности, насколько люди подстраивали язык под других и подхватывали их обсуждаемые темы (обычно это называют лексическим выравниванием). В диалогах эта метрика часто обратна словарному запасу — если человек больше обсуждает то, что обсуждают другие, репертуар его слов при этом сужается. Таких метрик нашлось достаточно много, но пока ограничу рассказ на том что есть. ​ Сбор данных ВНЕ персонального пользования может подпадать под несколько статей УК РФ (незаконный сбор информации о частной жизни). Если вдруг вам интересно сделать такой анализ — могу прислать вам скрипты и приложение под ваш «personal use» (вам так же понадобится знание питона и чёрный пояс по сис.администрированию). В публичный доступ по причине выше, думаю, выкладывать код не стоит. ​ Что дальше? Было бы интересно сделать полноценный LLM анализ. ИИ которые я использовал до этого — используются в службах поддержки (кластеризация тем, сентимент). Они сильно ограничены и плохо подходят для живых бесед из ТГ и ВК. А вот ИИ модели при пакетной обработке могли бы оценивать диалоги по любой заданной метрике (от гейства до полит.координат), сохранять из них отдельные факты, саммеризацию. Как-нибудь напишу и об этом, если займусь