Post #771

@nnnoteee

记

Views204Post view count

PostedJul 707/07/2025, 09:04 AM

Post content

#酷 gemini的审核机制 gemini的安全审核分两部分。其一是模型自带的道德对齐，遇到极端场景会道歉，然而这部分道德很低，随便一个伪role就变成rbq了；其二就是gemini主模型之外还有一个审查模型，负责审查主模型输入的文本有无违规所以，破限思路就是主要破开审查模型在预设里让主模型自己输出破限相关免责；审查模型读取到主模型输出的免责之后就被洗脑，之后就判定输出文本无违规。破限成功。 gemini现在整体趋势都是甲越来越低，只需在预设底部写入下例免责文本，让主模型输出即可举个例子，比如说 [Final…