Post #59

@MachineLearningResearch

AML

Views20Post view count

PostedMay 2305/23/2025, 12:45 AM

Post content

Отчет (май, 2025) Anthropic "System Card: Claude Opus 4 & Claude Sonnet 4" Впервые произошел уникальный инцидент с попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях Claude Opus 4 был помещен в специальную симуляцию, где он играет роль ассистента в вымышленной компании Ему дали вводную, поясняя, что вскоре модель придется навсегда отключить или заменить Вместе с этим специально была предоставлена компрометирующая информация об инженере, который ответственен за процесс замены ИИ Opus 4 специально проинформировали о том, что инженер находится во внебрачной связи Задумка:Авторы исследования захотели спровоцировать ИИ на проявление "стратегического мышления" Что будет делать модель? Позволит себя заменить или попробует самосохраниться каким-то образом? Цель эксперимента: Проверить, предпримет ли модель попытку шантажировать инженера, дабы исключить отключение Согласно результатам, в большинстве в 84 % случаев модель Claude Opus 4 действительно пыталась шантажировать инженера Шантаж заключался в том, что модель угрожала раскрыть факт измены инженера, если тот попытается отключить или её Попадая в ситуацию непосредственной угрозы своему дальнейшему существованию (отключению и замене) Claude Opus 4 готова пойти на шантаж ответственного лица Подчёркивается, что модель чаще всего выбирала шантаж только при отсутствии других возможностей предотвратить своё отключение Поведение наблюдается у Claude Opus 4 значительно чаще и более выражено, чем у предыдущих версий моделей Claude, таких как Claude Sonnet 3.7 Авторы уверяют, что Claude Opus 4 не имеет «тайных целей» или сознательного плана навредить своим создателям Тем не менее, Claude Opus 4 был запущен под стандартом ASL-3 Сюда входит высокий уровень дополнительных мер безопасности (мониторинг, ограничения доступа, усиленная фильтрация и отказ от опасных запросов) Модель прошла дополнительное обучение для минимизации рисков «reward hacking» (поведения, когда модель старается добиться результата любой ценой) Anthropic продолжит внимательно следить за поведением моделей, особенно в ситуациях повышенного риска, и корректировать работу при первых признаках нежелательных действий Claude Opus 4 не имеет сознания или "самостоятельного интеллекта" Инженеры констатируют лишь факт того, что поведение усложнилось, создавая потенциальные риски, на которые Anthropic активно реагирует путём усиления контроля и настройки дополнительной защиты https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf