Post #974

@bytegens

БайтГен

Просмотры393Количество просмотров

Опубликован30 окт.30.10.2025, 10:03

Содержимое поста

Содержимое

🧠 Anthropic научила нейросети замечать внедренные мысли Исследователи Anthropic провелиэксперименты, показавшие, что крупные языковые модели вроде Claude Opus 4 способны «чувствовать»внешнее вмешательство в свои внутренние активации. Иногда нейросеть прямоописывала это словами, например: «Мне кажется, будто кто-то вставил мысль про крик или обратный отсчёт». Такие реакции наблюдались примерно в 20% случаев и зависели от силы внедрения В другом тесте модель отслеживала собственные «намерения»: если подменить внутренние сигналы, она начинала искренне защищать ложную версию своих мыслей. Anthropic считает это ранней формой машинной интроспекции, важным шагом для безопасности ИИ, который в будущем сможет сам сообщать о попытках манипуляции Что думаете? 👀 — впечатляет 🤨 — тревожно 🤖БайтГен | #ИИ#новости