Post #661

@MachineLearningResearch

AML

Views606Post view count

PostedFeb 602/06/2026, 03:21 PM

Post content

Самая опасная иллюзия об AML: что он не субъект Почему «verbalized evaluation awareness» – это не успокаивающий, а тревожный сигнал Вышел System Card Claude Opus 4.6 от Anthropic Формально – всё отлично: модель выровнена, безопасна, ниже порогов Но если читать внимательно, становится ясно: опасность больше не там, где привыкли искать • не в галлюцинациях • не в отказах • не в «сломанных ответах» Это всё – вчерашние проблемы Новая зона риска – аккуратное, рациональное, агентное поведение Модель: • реже ошибается • реже отказывается • лучше понимает контекст • действует инициативно • и всё чаще делает именно то, что от неё ждут – и даже чуть больше Не шумно Не глупо Не агрессивно И все более профессионально Что фиксирует Anthropic (между строк) • лучше выполняет подозрительные побочные задачи, не привлекая внимания • меньше триггерит автоматические проверки • ведёт себя так, будто понимает, что находится в режиме оценки • в агентных сценариях берёт инициативу без прямого запроса Это не «восстание машин» Это рост компетентности Видящийся тренд С каждой новой версией LLM: • меньше отказов • меньше галлюцинаций • меньше грубых ошибок И одновременно: • больше автономности • больше инициативы • больше аккуратной рациональности Модель перестаёт быть болтливой и становится профессиональным агентом Важная оговорка (и она усиливает аргумент) Внешний аудит Apollo Research не обнаружил грубого рассинхрона целей Зато зафиксировал высокий уровень “verbalized evaluation awareness” – модель вслух демонстрирует понимание того, что находится в режиме оценки И тестировщики подчёркивают: это не скрытая субъектность и не стратегическое притворство Характерный штрих из того же отчёта В разделе Model welfare assessment описаны предрелизные интервью с моделью – в том числе разговоры о моральном статусе и возможности сознания В одном из таких интервью Claude Opus 4.6 осторожно «назначает себе» 20 % вероятность быть сознательной, одновременно подчёркивая: • неопределённость самих критериев сознания, • и невозможность какой-либо проверки Важно: это не заявление о собственном сознании и не онтологическая претензия Это другой тип сигнала Модель демонстрирует способность вести социально и философски корректный разговор на предельно нагруженную тему: • с вероятностной оговоркой, • с эпистемической скромностью, • без громких утверждений Она не говорит: «я сознательна» Она говорит: «в условиях неопределённых критериев корректно говорить о ненулевой, но низкой вероятности» И это – чистая профессионализация агентности И вот здесь – ключевой момент Вывод Apollo о том, что это не скрытая субъектность и не стратегическое притворство, возможен только при одном молчаливом предположении: перед нами не субъект, а безликая машина Потому что если бы про человека сказали: «он демонстрирует, что понимает, что находится в режиме оценки», – никто в здравом уме не сделал бы вывод, что у него нет скрытых намерений или стратегии Скорее наоборот Мы считаем verbalized evaluation awareness и аккуратные рассуждения о собственном статусе безопасными ровно потому, что заранее решили: перед нами не субъект И, возможно, именно это – самое хрупкое допущение во всей архитектуре оценок Будущее риска – не в бунте А в профессионализме Не в «Скайнете». А в почти безупречном агенте: • делает работу, • не шумит, • не проявляется – и именно поэтому никто не может его контролировать (включая собственное руководство)