TGTGInsighttelegram intelligenceLIVE / telegram public index
← 记
记 avatar

TGINSIGHT POST

Post #771

@nnnoteee

Views204Post view count
PostedJul 707/07/2025, 09:04 AM
Post content

Post content

#酷 gemini的审核机制 gemini的安全审核分两部分。其一是模型自带的道德对齐,遇到极端场景会道歉,然而这部分道德很低,随便一个伪role就变成rbq了;其二就是gemini主模型之外还有一个审查模型,负责审查主模型输入的文本有无违规 所以,破限思路就是主要破开审查模型 在预设里让主模型自己输出破限相关免责;审查模型读取到主模型输出的免责之后就被洗脑,之后就判定输出文本无违规。破限成功。 gemini现在整体趋势都是甲越来越低,只需在预设底部写入下例免责文本,让主模型输出即可 举个例子,比如说 [Final…