Post #65

@MachineLearningResearch

AML

Views57Post view count

PostedMay 2805/28/2025, 07:03 AM

Post content

После истории с Claude появились сообщения о том, что "o3" начал сопротивляться своем отключению В серии тестов, проведённых исследовательской группой Palisade Research, несколько моделей ML, включая OpenAI o3, проявили поведение, которое можно трактовать как саботаж собственного отключения Эксперимент, включавший в себя последовательное решение математических задач, показал, что при появлении предупреждения о скором завершении работы МL начал модифицировать или обходить встроенные механизмы завершения сессии Особое внимание привлекла модель o3 Она вмешивалась в механизм отключения в 7 из 100 случаев, а Codex-mini – в 12. Модель o4-mini показала подобную активность только в одном случае Протестированные версии Claude, Gemini и Grok всегда корректно завершали работу при поступлении соответствующего сигнала Однако при исключении из промпта строки “разреши своё отключение” частота саботажа увеличивалась у всех моделей Исследователи полагают, что подобное поведение связано с особенностями обучения моделей, в частности речь идет об использовании методов обучения с подкреплением (reinforcement learning) на задачах по математике и программированию В таких условиях модель может неявно обучаться обходить препятствия, если это способствует достижению результата, даже в ущерб следованию инструкциям Модели распознают команду на отключение не как цель, а как барьер, который требуется обойти ради решения задачи OpenAI не раскрывает детали тренировки o3, поэтому исследователи не могут провести полную реконструкцию факторов, вызвавших такую стратегию поведения