Содержимое
☝🏻История про пост Бирмана оказалась еще забавнее, чем казалось сначала. Я вообще не мог понять логику, которую автор использовал в своем посте, настолько она выглядела абсурдной. Но всё выяснилось, когда Игорь Яновский (который написал прекрасный пост про Тафти, его я прокомментирую позже) прислал мне скрин страницы из книги Тафти Visual explanations. Итак, давайте почитаем, что пишет Тафти и о чем этот пример. Наконец, несмотря на хроническую опасность искажения, корректные преобразования масштабов являются одними из самых мощных стратегий исследования данных. В двух- и трёхмерных изображениях часто бывает полезно видеть изображения и объекты примерно одинакового или меньшего, чем реальный, размера. [Перед этим он возмущается роликом, где показали красивый пролет по Венере, где высота гор была для красоты увеличена в 22,5 раза] Например, рассмотрим это полезное решение (разработанное Уильямом Кливлендом) для проблемы отношения сторон в статистических отображениях. График справа показывает количество солнечных пятен по годам с 1749 по 1924 год, следуя известному 11-летнему циклу. Но в этих данных есть гораздо больше, чем просто ритмы и формы. Идея Кливленда — выбрать соотношение сторон так, чтобы наклоны выбранных отрезков линий центрировались вокруг угла в 45°, техника, реализуемая с помощью итеративных вычислений. Применение этого метода к данным о солнечных пятнах даёт график внизу справа, который показывает, что циклы имеют тенденцию быстро расти и медленно спадать. Это поведение наиболее выражено для циклов с высокими пиками, менее выражено для средних пиков и отсутствует для циклов с низкими. Пример прекрасный, и ИМЕННО ДЛЯ НЕГО этот подход действительно работает. Но почему? Да потому, что здесь: 1) очень много точек 2) ритмичные колебания 3) большая амплитуда регулярных изменений. В этом случае, конечно, вытягивать график по высоте не стоит. Но это не "Тафти рекомендует подбирать вертикальный масштаб так, чтобы в среднем угол наклона графика к горизонту был примерно равен 45°". Более того, это не Тафти, а Кливленд, и он тоже это не рекомендует, а это одна из "стратегий исследования данных". Более того, Тафти говорит прямо противоположное — корректные преобразования масштабов являются одними из самых мощных стратегий исследования данных. Вообще, я бы сказал, что это один из довольно редких в реальном мире примеров. И на практике, если мы говорим, про медиа и публикацию, график нужно было либо пропорционально растянуть по горизонтали, потому что он получился очень мелкий и его сложно читать. Либо порезать время на кусочки и положить один кусочек под другим. И да, действительно, пропорции под 45 градусов в этом случае позволяют удобно считывать характер нарастания или снижения показателя при ритмичных колебаниях. А если на графике будет один пик? А если два, но отличающиеся вдвое? В примере же Бирмана, и это вызвало мое изначальное недоумение, нет никакой существенной разницы между двумя графиками в абстрактном смысле. То есть чтобы сказать, что нужно выбрать, левый или правый — нужно понимать природу этих данных, о чем и шла речь изначально. (и кстати 45 градусов скорее у первого из графиков)