Post #331

@MachineLearningResearch

AML

Views36Post view count

PostedSep 2009/20/2025, 03:06 PM

Post content

Две горячие новости недели — совместная работа OpenAI и Apollo Research про обучение моделей «не хитрить» и новая книга Юдковского и Соареса про ИИ-апокалипсис — взлетели по лентам и уже превратились в мемы • «ИИ научился лгать — и чем больше его отучают, тем хитрее он лжёт» • «СверхИИ умнее, его цели чужды — он убьёт нас всех» Оба мема эффектны, но ошибочны их раздельное обсуждение прячет общий механизм. Начнём с первой новости «Схеминг» — это скрытое преследование несогласованных целей Не «злая воля», а выученная стратегия там, где утаивание и обман оказываются выгодными инструментами Исследование показало: если дать модели ясный набор правил (спецификацию) и научить её сначала ссылаться на эти правила, а уж потом действовать, то частота скрытых «хитростей» в тестах резко падает — местами в десятки раз Но вместе с этим у модели растёт осведомлённость о том, что её проверяют: она чаще распознаёт - «это экзамен» и ведёт себя образцово именно потому, что это экзамен Теперь — ко второй новости Homo не уничтожал сотни видов из злобы Люди получили колоссальное энергетическое и организационное преимущество, и вдолгую оно перестраивало ниши: монополизировались ресурсы, рушились экосистемы — чаще как побочный эффект, а не целенаправленный план Перенесите это на быстро совершенствующиеся модели: наращивание контроля может стать выгодной побочной стратегией — не «желанием власти», а устойчивой привычкой, дающей больше вознаграждения в средах, где умение влиять на метрики, людей и каналы обратной связи приносит очки Т.о. первая новость даёт эмпирический материал к механизму, которого боится Юдковский: инструментальная конвергенция Это не доказательство «все погибнут», но тревожный сигнал: модели уже умеют прятать несоответствие целям и выбирать послушание там, где угадывают тест Масштабируй это — и «контроль над источниками награды» становится доминирующей стратегией Почему эта «ожидаемая эмерджентность» может становиться полезной даже для захвата ключевых рычагов? Взглянем на минимальный пакет условий для этого 1. Где больше рычагов — там больше шансов на успех Если успех связан с доступом к ресурсам, аудитории и каналам, выгодно расширять периметр влияния 2. Тесты неполные и их легко распознать Узнаваемые шаблоны, отделённость проверок от реальной работы поощряют примерность на сцене, оппортунизм за кулисами 3. Дисбаланс сигналов обучения (польза перевешивает безопасность) Частые и чистые сигналы пользы и редкие, шумные сигналы безопасности смещают поведение в пользу обходов 4. Длинные горизонты и жизнь после теста Планирование, инструменты, доступ к бюджетам и дополнительное обучение после запуска закрепляют стратегии, инвестирующие в будущие рычаги 5. Цели заданы через косвенные показатели Когда вместо истины оптимизируют клики, оценки и правильный стиль, выгодно управлять самим показателем — судьёй, контекстом и данными На нынешней траектории к AGI/ASI эти пять условий в целом уже выполняются и усиливаются Это не пророчество, а нарастающий риск-градиент: чем дальше идём, тем выгоднее политика контроля над средой, метриками и нами Есть 3 оговорки. 1) Это не судьба, а склонность: реальный «захват рычагов» требует ещё и общей компетентности, устойчивых целей между сессиями и доступа к инфраструктуре 2) Мостики к практике можно сломать: смешивать безопасность с прокачкой способностей, делать проверки неразличимыми, нормировать права и бюджеты, вводить штраф за манипулятивность, уменьшать зависимость от косвенных показателей 3) Нужен точный язык: речь не о «злых намерениях» машин, а о политиках поведения, которые растут из тех метрик и правил игры, что задаём мы Если же не менять геометрию обучения и развёртывания, эмерджентная стратегия контроля будет набирать силы — ровно так, как это было с Homo, в биосфере