Съдържание
Параллельно я делал тематическую кластеризацию сообщений на темы через BERT — взглянуть, как в диалогах одни темы перетекали в другие. Отсюда возникла мысль: что если взять энтропию Шеннона и сосчитать непредсказуемость поднимаемых тем, а не отдельных слов? Оказалось, энтропия Шеннона по темам — мой конёк. В любых беседах и чатах я лидер по метрике. Отсюда и «шиза» этого канала, где после постов об ИИ и кашалотах следует NLP-анализ. Было бы интересно собрать архив популярных ТГ-каналов, и прогнать на схожем анализе. Если кто-то так сделает и пришлёт мне архив — я сделаю анализ и опубликую статистику. (Проще всего будет зайти пустым аккаунтом во все каналы и экспортировать общую историю) Открыл тут ещё много любопытных метрик. Если собрать взвешенный граф по количеству ответов/обращений людей друг к другу и кластеризировать граф по весу — можно увидеть структуру беседы, где точно видна демократичность (есть ли у беседы лидер или структура размыта), видны отдельные кластеры друзей, ядро актива, переферия добавленных, и так далее. Если сосчитать, какая доля слов в сообщении — повторы из предыдущих N сообщений (я взял 8), можно увидеть нечто вроде эмпатичности, насколько люди подстраивали язык под других и подхватывали их обсуждаемые темы (обычно это называют лексическим выравниванием). В диалогах эта метрика часто обратна словарному запасу — если человек больше обсуждает то, что обсуждают другие, репертуар его слов при этом сужается. Таких метрик нашлось достаточно много, но пока ограничу рассказ на том что есть. Сбор данных ВНЕ персонального пользования может подпадать под несколько статей УК РФ (незаконный сбор информации о частной жизни). Если вдруг вам интересно сделать такой анализ — могу прислать вам скрипты и приложение под ваш «personal use» (вам так же понадобится знание питона и чёрный пояс по сис.администрированию). В публичный доступ по причине выше, думаю, выкладывать код не стоит. Что дальше? Было бы интересно сделать полноценный LLM анализ. ИИ которые я использовал до этого — используются в службах поддержки (кластеризация тем, сентимент). Они сильно ограничены и плохо подходят для живых бесед из ТГ и ВК. А вот ИИ модели при пакетной обработке могли бы оценивать диалоги по любой заданной метрике (от гейства до полит.координат), сохранять из них отдельные факты, саммеризацию. Как-нибудь напишу и об этом, если займусь