TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
Post content
В работе об Emergent Misalignment сбой скрывался не в миллиардах параметров, а в одном линейном направлении внутри активаций Подтолкни модель к этому вектору — и она злодействует; вырежи его — зло почти исчезает Другая группа исследователей задала мультимодальной модели миллионы вопросов «что похоже на что» — и выяснила: почти весь здравый смысл укладывается в 66 осей («животное», «инструмент», «красный»…) Каждая ось совпала с человеческими интуициями и даже с зонами мозга, отвечающими за лица и места LLM сжимают колоссальные знания и цели в узкий пучок управляемых векторов