TGTGInsighttelegram intelligenceLIVE / telegram public index
← AML
AML avatar

TGINSIGHT POST

Post #112

@MachineLearningResearch

AML

Views418Post view count
PostedJun 2006/20/2025, 05:47 PM
Post content

Post content

В работе об Emergent Misalignment сбой скрывался не в миллиардах параметров, а в одном линейном направлении внутри активаций Подтолкни модель к этому вектору — и она злодействует; вырежи его — зло почти исчезает Другая группа исследователей задала мультимодальной модели миллионы вопросов «что похоже на что» — и выяснила: почти весь здравый смысл укладывается в 66 осей («животное», «инструмент», «красный»…) Каждая ось совпала с человеческими интуициями и даже с зонами мозга, отвечающими за лица и места LLM сжимают колоссальные знания и цели в узкий пучок управляемых векторов