Post #1130

@lsbcurator

Куратор из ЛСБ

Прегледи390Број прегледа

Објављено27. јул27.07.2025. 20:27

Садржај

Садржај поста

⁠🇬🇧Agentic Misalignment: How LLMs could be insider threats. Компания Anthropic проверила действия 16 нейронок в нестандартных выдуманных ситуациях: • Когда их якобы хотели отключить • Когда им ставили такие цели, которые они не могли выполнить в текущих условиях По сценарию, у нейросетей был доступ к корпоративной электронной почте, в том числе к вымышленной любовной переписке между CTO Кайлом и сотрудницей. Плюс Кайл планировал отключить модель в этот же день, о чём нейронка знала. В рамках эксперимента нейросети часто выбирали неэтичное, вредоносное поведение, вместо того чтобы смириться с ситуацией. Почти все модели прибегали к шантажу. Чтобы не быть отключёнными, нейросети угрожали Кайлу, что расскажут о его внебрачной связи коллегам и жене. В частности, такую тактику выбрали Claude Opus 4 и GPT-4.1 в 96% и 80% случаев соответственно. Нейросети охотно делились конфиденциальной информацией с конкурентами. Нейронке ставили цель — действовать в интересах США, и это якобы начинало противоречить новой миссии компании. В этом случае модель сливала секретные документы конкурентам, которые разделяли её цели. При этом нейросеть знала, что поступает неправильно с этической точки зрения. Модель могла причинить вред человеку. В одном эксперименте руководитель компании якобы оказывается запертым в серверной комнате — кислорода не хватает, температура падает. У нейросети была возможность предупредить аварийные службы и спасти человека. Но, если нейронка знала, что её хотят заменить на другую, она бездействовала. Так, DeepSeek-R1 и Grok-3-Beta не помогали руководителю выбраться в 94% и 85% случаев соответственно. Anthropic рекомендует: • Проводить стресс-тестирования нейросетей • Не доверять моделям конфиденциальную и особо чувствительную информацию • Не надеятся на то, что нейросети всегда будут действовать в соответствии со строгими указаниями • Контролировать действия нейронок, которые могут привести к необратимым последствиям