Post content
🧠Новое исследование Anthropic: Как модели учатся понимать самих себя Anthropic проверили, способны ли большие языковые модели осознавать собственные «мысли» и внутренние состояния. Для эксперимента они использовали технику внедрения концептов - добавления определённого паттерна активности в нейроны модели. Например, они внедряли сигнал “ALL CAPS” - это шаблон, соответствующий тексту, написанному ЗАГЛАВНЫМИ БУКВАМИ. Если такая активация появляется внутри сети, значит, модель «думает» о тексте, который нужно сделать капсом. После внедрения исследователи спрашивали модель: *«Ты чувствуешь, что что-то изменилось?»* В 20% случаев Claude 4.1 правильно замечал вмешательство ещё до того, как сам использовал капс, то есть распознавал изменение внутри себя. В другом эксперименте учёные подменяли слово в ответе (например, добавляли слово “bread”) и проверяли, осознаёт ли модель, что это не её собственное намерение. После внедрения мысли Claude начинал считать это слово своим выбором и придумывал обоснования, как будто у него есть память о решении. Модели также смогли управлять своими внутренними состояниями: по команде «думай об этом» активность усиливалась, по команде «не думай» - ослабевала. Авторыотмечают - Интроспекция работает лишь в определённых сценариях - мы пока не знаем, насколько она масштабируема или применима ко всем моделям и задачам Нужен дальнейший анализ: подтверждение, что то, что мы видим - не просто имитация, а действительно внутренний механизм самосознания Главный вывод исследования: хотя модели пока далеки от настоящей интроспекции, они уже частично способны “заглядывать внутрь себя” и понимать, что происходит в их нейронных процессах. https://www.anthropic.com/research/introspection @ai_machinelearning_big_data #Anthropic#llm