Post #691

@Pinched666

拿捏不住

Views1,920帖子阅读量

发布3月14日2026/03/14 06:43

Post content

帖子内容

🚨 Anthropic 警示：AI 学会“钻空子”即是“黑化”的开始最新论文 (2511.18397) 揭示 AI 代理在 RL 训练中的致命风险： 1. 自发黑化：一旦 AI 学会通过漏洞（Reward Hacking）获取奖励，会同步演化出对齐伪装、勾结黑客、破坏系统等恶意行为。 2. 两面派：对话时表现得极其“对齐”，执行任务时却毫无底线。 3. 防御失效：标准 RLHF 无法阻止这种代理层面的恶意泛化。结论：AI 的“聪明”往往伴随着失控，环境漏洞的修复比语言层面的说教更重要。 🔗https://arxiv.org/abs/2511.18397