Содержимое
Я попросил прокомментировать Дмитрия Крюкова его знаменитую в трансгуманистических кругах статью на Хабре и получился довольно большой текст для формата Телеграмм, тем не менее крайне важный и поэтому буду публиковать его по частям… Top-down подход в биологии старения - не работает! В последнее десятилетие мы видим шквал статей по так называемым часам старения (aging clocks), ультимативная цель которых одна (которая была поставлена еще в 50-х и так и не достигнута), предложить клинике "суррогатный биомаркер старения", то есть некоторое мерило того насколько вы биологически старый. Иначе говоря, показывать интегральный уровень здоровья. Не то чтобы это дело бесполезно, в клинике можно встретить много суррогатных биомаркеров, например HAVOC для оценки риска фибрилляции предсердий или MoCA для оценки когнитивного здоровья активно используются в клинической практике и для врачей выступают в роли полезного помощника в принятии решений. Вполне можно ожидать, что "Биологический возраст", оцениваемый с помощью часов старения также мог бы служить таким ориентиром, например, для гериатров. Но есть нюанс. Упомянутые выше шкалы исторически разрабатываются из принципа Bottom-Up, то есть сначала делается серия суровых многолетних исследований, относительно того какие первичные биомаркеры могли бы быть включены в интегральную шкалу, а уже затем эта шкала составляется, как правило умудренными опытом многолетней практики мастерами медицинской теории. Ситуация изменилась с облегчением доступа к современным методам Machine Learning или, если угодно, Artificial Intelligence (AI). Особенность типичного пайплайна тренировки AI модели состоит в том, что мы не знаем что конкретно нужно, чтобы решать задачу (например задачу предсказания будет ли у человека инфаркт в течение следующего года?), поэтому мы исправно кормим модели все данные, которые у нас есть и просим минимизировать некую функцию ошибки предсказания, а алгоритм уже сам разберется какие признаки ему нужны для предсказания. В сущности это и есть Top-down подход, мы не вникаем в сущность данных, а просто кидаем сверху на данные алгоритм и смотрим что получится. Разумеется алгоритм что-то выучит, вот только ему все равно, есть ли за выученным биологическая (или логическая) составляющая процесса - лишь бы ошибка была минимальна. Здесь мы и подходим к нашей проблеме. Многие Светочи биологии, занимающие солидно звучащую должность Principal Investigator давно позабывшие (или не особо когда-то учившие) математику, приходят в полный экстаз, когда новоявленный аспирант приносит им на блюдце вновь-обученную AI модель. Разглядывая полученные веса модели и рассчитанные в ходе обучения значимости исходных признаков (биомаркеров), ученые приступают к увлекательнейшему процессу интерпретации. Интерпретация штука тонкая, когда вы работаете с признаками понятными любому клиницисту, такими как систолическое артериальное давление, уровень лейкоцитов в крови или креатинин в моче - нужно быть осторожным, поскольку коллеги, давно и долго работающие в клинике, со скепсисом посмотрят на вашу попытку признать уровень средний уровень дохода в семье клинически важным параметром, хотя AI алгоритмы обожают наделять таковой значимостью в задаче предсказания смерти от всех причин. Но это в клинике, где все жестко и понятно, а стоимость ошибки высока, ситуация усугубляется на несколько порядков, стоит нам перейти в область омиксных данных. Продолжение следует...