Содержимое
ИИ ошибается более чем в 80% случаев на раннем этапе диагностики Исследователи Harvard Medical School и Mass General Brigham выяснили, что современные языковые модели пока не могут надежно справляться с ключевым этапом клинического мышления — дифференциальной диагностикой. В исследовании были протестированы 21 передовая модель ИИ, включая ChatGPT, Claude, Gemini, DeepSeek и Grok. Ученые использовали 29 стандартизированных клинических кейсов, а общий объем анализа составил 16 254 ответа. Ключевой вывод: на этапе дифференциальной диагностики частота ошибок превышала 80% у всех протестированных моделей. Иными словами, ИИ испытывал серьезные трудности именно в тот момент, когда необходимо не назвать один готовый ответ, а сформировать список возможных диагнозов и сопоставить альтернативные гипотезы. При этом на более поздних этапах результаты оказались значительно лучше. Когда моделям предоставляли всю релевантную информацию по кейсу, уровень ошибок при постановке финального диагноза снижался ниже 40%, а у лучших моделей точность была существенно выше. Именно это исследователи считают принципиальным: современные LLM хорошо работают с уже структурированной информацией, но пока слабо справляются с ранним клиническим рассуждением в условиях неопределенности — то есть с тем, что составляет основу врачебного мышления. По словам одного из ведущих авторов исследования, доктора Marc D. Succi, перспективы ИИ в медицине по-прежнему связаны прежде всего с тем, чтобы дополнять, а не заменять клиническое мышление врача. Для Гарварда это важный вклад в дискуссию о будущем медицинского ИИ: исследование показывает, что главная слабость моделей — не знания как таковые, а способность мыслить в логике врача, удерживая несколько конкурирующих диагнозов одновременно. #Harvard#proharvard#Гарвард