Съдържание
Недавно у ВК появилась возможность скачать все свои диалоги единым архивом. Сделать это можно по ссылке: https://vk.com/data_protection Это крутая штука. В архиве есть доступ к сообщениям, которых уже не видно в клиенте. Например, там не фильтруются старые спам-сообщения из 2008–2011. Кто помнит, ВК тех годов был фестом очень смешного спама. Друзья перманентно взламывались и присылали вам сообщения в духе «нУ ты и БалАсЯтuнА нА эТоМ ФотО», после чего шла ссылка на фишинговый сайт с вирусом, который рассылал такие же сообщения уже вашим друзьям, а от вас требовал выкуп аккаунта по СМС. Ещё из любопытного: в архиве много одиночных сообщений, где мне писал человек, а затем, возможно, удалял сообщение; либо оно не доходило до меня по другой причине. Раньше в ВК запрос на дружбу можно было сопровождать сообщением. Может, в архиве сохранены как раз такие сообщения, даже если отправитель потом отменял свой запрос? В Telegram тоже можно экспортировать архив со всеми диалогами, делается это через Advanced Settings / «Расширенные настройки». Интересно, что структура экспортируемых данных у ТГ и ВК очень похожа, но у ТГ лучше. ВК теряет информацию о том, на какое сообщение был ответ, откуда была пересылка, и подобные мелочи. Либо ВК постфактум «позаимствовали» у ТГ функцию в кривом виде, либо зачатки функции остались в ВК ещё от Дурова, а он просто сделал в Telegram то же самое, но в доработанном виде. В общем, я скачал оба архива и решил сделать штуку, о которой вы, возможно, тоже задумывались: 1. Спарсил все беседы в общий формат. 2. Прогнал их через весь мыслимый NLP-анализ: стилометрия и разброс частей речи, словарный запас, анализ тональности, тематическое моделирование с кластеризацией по темам, около сотни разных метрик. 3. Сделал приложение для браузинга/поиска по полученным данным. Данными о других поделиться не могу (т.к. конфиденциальность и вообще уголовно наказуемо), поэтому далее рассказ пойдёт о себе любимом. Тем не менее, если вы общались со мной когда-либо и вас интересует любая статистика, обратитесь ко мне, и я её предоставлю. Расскажу о парочке впечатляющих штук, которые обнаружились по пути. Если у человека набирается хотя бы 10 000 сообщений за год, этого достаточно, чтобы определить его точное время сна и бодрствования. Просто набросав время отправки сообщений на график, где по оси Y часы от 0 до 24, а по оси X дни, мы получаем то, что в медицине называют актограммой. Актограмма показывает паттерны активности, по которым можно узнать о человеке самые разные вещи: