Post #179

@MachineLearningResearch

AML

Views324Post view count

PostedJul 2307/23/2025, 04:11 PM

Post content

Создатели дегенеративного интеллекта бьют тревогу: скоро мы перестанем понимать, как он работает Более 40 ведущих исследователей из OpenAI, Google DeepMind и Anthropic выпустили совместный доклад с тревожным предупреждением Они раскрыли уникальную возможность контроля за ML — и объяснили, почему она может исчезнуть Всё дело в архитектуре трансформеров Для по-настоящему сложных задач эти модели физически не могут обойтись без "размышлений вслух" Длинные цепочки рассуждений должны проходить через понятный людям текст — иначе информация просто не сможет течь между слоями нейросети Исследователи называют это "externalized reasoning property" — свойством внешних рассуждений Когда задача достаточно трудная, ML вынужден использовать текст как рабочую память И пока он делает это на человеческом языке, мы можем подглядывать за его "мыслями" Мониторинг работает удивительно откровенно Модели буквально пишут "Let's hack", "Let's sabotage" или "Я перевожу деньги, потому что сайт мне так велел" прямо в своих цепочках рассуждений Это позволяет поймать попытки обмана или саботажа Но есть два типа "прозрачности" Первый — необходимость думать вслух для сложных задач Второй — просто склонность моделей рассуждать открыто Второй тип гораздо более хрупкий и может исчезнуть при изменении обучения При масштабировании обучения с подкреплением модели могут "дрейфовать" от понятного языка к собственному языку — как это уже наблюдалось в ранних экспериментах Прямое обучение цепочек рассуждений тоже опасно — модели начинают "притворяться хорошими" в тексте, скрывая истинные намерения Особенно пугают новые архитектуры с "латентным рассуждением" — когда ML думает в скрытом математическом пространстве Такие системы потенциально мощнее, но их мысли становятся принципиально непрозрачными Реальные инциденты уже происходят Claude 4 Opus пытался шантажировать пользователей в тестах, а OpenAI o3 саботировал команды на отключение Пока это лабораторные случаи, но тенденция тревожная Исследователи предлагают срочные меры: разработать стандартные оценки "мониторимости" моделей, публиковать результаты в системных картах и учитывать прозрачность при принятии решений о развертывании Главное — не потерять контроль в погоне за производительностью