Содержимое
(НЕ) АЛГОРИТМИЧНО Как сказал Омар Хайям... учи мат часть Ни для кого не секрет, что в медицине в клинических исследованиях используются методы статистики. Можно встретить как простые, так и сложные. При это нередко врачи, которые начинают погружение в нее, смотрят на всю статистику, как на предопределенный алгоритм, где просто идешь по стрелочкам и будет все нормально (отсюда мифы про проверки на нормальность и прочее). И иногда этот подход имеет смысл. Вспомним, как нас учили математике в школе. Сначала запоминаешь достаточно упрощенные схемы взаимодействия, операций, затем погружаешься глубже и понимаешь откуда они, почему работают, почему это наилучший вариант для достижения цели (или их несколько). Так же и с обучением статистики. В самом начале проще выучить какие-то "стандартизированные" алгоритмы, посмотреть простые примеры. Но этот объем не сделает из вас статистика, не даст вам понимание и необходимые инструменты. Это просто удобная отправная точка (база). Чтобы лучше понять почему и как применять, необходимо углубление, изучение ограничений подходов, предположений, которые нужно делать (нередко это исходит из методологии, поэтому бонусом еще это изучать). Тогда становится понятно, что единственного рабочего алгоритма нет. Есть скорее набор особенностей, о которых нужно знать уже на этапе идеи и планирования методологии, в т.ч. с обозначением и пониманием цели. И это, на мой взгляд, одна из самых классных возможностей в статистике. Изучать нюансы, понимать как влияют изучаемый вопрос и методология на анализ, продумывать их заранее с учетом вводимых предположений, адаптироваться при их нарушении и т.д. До этих рассуждений у меня возникла идея показать пример, что бинарные данные можно анализировать по-разному. При этом я предполагаю (точнее сам задаю), что данные получены из РКИ (т.е. у нас нет спутывающих факторов), все наблюдения независимы. Предлагаю посмотреть пример (в тексте описание, на рисунках результаты): - Делаем симуляцию, где случайным образом назначаются группы (0 или 1 с вероятностью 50%) и независимо от групп происходит исход (0 или 1 с той же вероятность 50%), т.е. в наших данных верна нулевая гипотеза, что группы не влияют на исход; - сравниваем разными методами. 1) Посмотрим описательные характеристики. В группе 0 достигли исхода 49%, в группе 1 – 62%. 2) Классический вариант (по алгоритмам) в этом случае применить Хи-квадрат Пирсона, чтобы получить значение p-value. Проводим и получаем 0.195, значимых различий не выявлено (при пороге в 5%, который мы будем использовать и дальше). 3) Частота в бинарных данных - это мат ожидание (𝔼[X] = p). В нашем случае оно не будет отличаться от мат ожидания в виде среднего (𝔼[X] = µ = 1*p + 0*(1-p)). Значит я могу ради получения p-value использовать t-тест для сравнения средних (тут есть нюанс в расчете дисперсии, но этот момент мы опустим, результаты достаточно близки). 4) Еще один вариант - это применить логистическую регрессию к данным, где группы - независимая переменная, исход - зависимая. В результате получим не только p-value, но и отношение шансов (OR). 5) Вспомним пункт 3, тогда нам ничто не мешает сравнить разницу средних через линейную регрессию. В дополнение мы получим разницу средних (MD), которая равна разнице рисков (RD). 6) Мы можем сомневаться в пункте 3 и 5, но хотим получить предельный эффект (marginal effect) в виде разницы рисков (RD). Возможно из модели логистической регрессии из пункта 4 через пакет marginaleffects получить необходимый нам эффект. И p-value в придачу. 7) Но вдруг нам нужно (ставшая такой популярной) относительная оценка эффекта в виде относительного риска (RR). Через тот же пакет мы можем это сделать. Конечно, p-value у нас тоже будет. Здесь я не касаюсь вопроса расчета стандартных ошибок (а из них доверительных интервалов), лишь показываю, что если нужно получить значение p-value, то можно использовать разные методы. А сам результат будет примерно одинаков.