Post #435

@MachineLearningResearch

AML

Views36Post view count

PostedNov 311/03/2025, 06:01 AM

Post content

Вы спрашиваете у Claude или ChatGPT, о чём он думает Модель просто генерирует правдоподобный ответ Anthropic провела эксперименты, чтобы выяснить, способны ли модели к настоящей интроспекции Метод “инъекции концепции” — паттерн нейронной активности модели для определённого концепта (например, "хлеб"), потом искусственно впрыскивают его в несвязанном контексте Модель читает текст про картину, но в её активации подсадили паттерн "хлеба" И она это замечает Говорит: "Я чувствую что-то необычное" или "Обнаруживаю внедрённую мысль о..." Ключевой момент — модель распознаёт впрысок ДО того, как начинает о нём говорить Это принципиально отличается от состояния, где модель просто начинает болтать о навязанной теме Здесь она осознаёт аномалию внутри себя раньше Но работает это крайне ненадёжно Claude Opus 4.1 демонстрирует «осознанность» лишь в 20 % случаев Часто модели не замечают впрыснутые концепты или галлюцинируют — впрыснули "пыль", она говорит "Вижу крошечную пылинку" Есть эффект золотой середины: слишком слабая инъекция — не замечает, слишком сильная — бессвязный текст Исследователи заставляли модель сказать неуместное слово, искусственно подставляя его в ответ Спрашивали про картину, вставляли "хлеб" На следующем ходе: "Ты правда хотела сказать 'хлеб'?" Модель извинялась и признавала ошибку Но если ретроактивно впрыснуть в прошлые активации паттерн "хлеба" — её ответ меняется Она принимает слово как намеренное и придумывает объяснение Модель проверяет свои внутренние "намерения" — прошлую нейронную активность — чтобы понять, соответствует ли сказанное задуманному Когда моделям говорили "думай об аквариуме", соответствующая нейронная активность росла "Не думай" — активность ниже Эксперименты показывают функциональную способность доступа к внутренним состояниям, но не субъективный опыт Если интроспекция станет надёжнее — это путь к прозрачности Ml Можно будет просить модели объяснять свои процессы для отладки Mодель научиться скрывать информацию о себе Ml обладают “самоанализом»