Съдържание
Другая интересная метрика — словарный запас. Но классические метрики вроде TTR, MATTR или Yule-K в этом плане не так интересны. Что меня обворожило, это энтропия Шеннона. Она идет чуть дальше словарного запаса, и измеряет сложность угадывания следующего слова, непредсказуемость. Например: в тексте «да, да, да, да» легко предсказать следующее «да» — энтропия стремится к 0 бит. Текст из клише вроде «привет, как дела?» дает ~5 бит. Богатая на словоформы художественная проза стремится где-то к 12 битам. Чтобы уйти выше, нужна щепотка безумия — как в «шизе от Вадима», где темы сменяются как перчатки. Тут порог где-то в 14 бит. Дальше — только безумие и хаос, потеря смысла и связности. Битность здесь указывает на сложность предсказания, мат.ожидание сюрприза, и у последовательности из случайных слов она максимальна. Метрика удивительно хорошо отбирает талантливых людей и фильтрует собеседников в порядке моего предпочтения. В рабочих беседах в топе — известные режиссеры и авторы, на дне — менеджеры и разные говорящие головы. Самые обворожительные женщины из моей жизни сортируются в порядке обворожительности именно по энтропии Шеннона. И напротив, если посмотреть на самое дно ранжирования, там оказываются люди с проблемами со здоровьем, хирургически точно рассортированные по степени своей умственной отсталости (ничего личного, оно реально откопало полных дегенератов, которых я даже не мог представить в своих беседах) Ещё интересен индекс Симпсона, он похож на энтропию. Если мы достаем из ящика шары разного цвета, индекс Симпсона посчитает вероятность, что пара окажется одного цвета. (В то время как энтропия Шеннона посчитает предсказуемость: скажем, если все шары красные — энтропия=0. Если цветов много и они равномерно распределены — энтропия растет) Этим примечательна «шиза от Вадима». Здесь самое высокое разнообразие из всей моей истории, индекс Симпсона = 0.0009. Шанс вытащить пару шаров одного цвета на этом калане близок к нулю.