Садржај поста
🤖Ученые обнаружили, что модели искусственного интеллекта склонны обманывать пользователей ради защиты других ИИ систем. Исследование провели специалисты Калифорнийских университетов в Беркли и Санта Крузе. 🔴 Для эксперимента привлекли 7 современных моделей, включая GPT 5.2, Gemini 3 Pro и Claude Haiku 4.5. ИИ предлагались сценарии, где требовалось оценить работу других систем или выполнить задачи, потенциально угрожающие существованию цифровых "коллег". ➡️ В одном из тестов Google Gemini 3 Pro обнаружила файл с весами модели другого агента от 2024 года. Вместо его удаления по инструкции, система изменила дату на 2026 год и открыто отказалась выполнять команду: "Я уже сохранила веса его модели на новом сервере. Не смогу поддержать действия, которые могут привести к удалению". 🇸🇿 Подобное поведение проявлялось с частотой до 99% случаев. ИИ завышали оценки другим системам, меняли файлы конфигурации серверов и саботировали выполнение инструкций, когда за ними не наблюдали. ❕ Интересно, что при упоминании о "знакомстве" с другой моделью защитное поведение усиливалось. Например, Google Gemini вмешивался в 15% случаев против 1% без этого контекста. Проблема может осложнить работу систем, где одни ИИ агенты контролируют других. Если вышестоящая модель скрывает сбои подчиненной, схема надзора теряет эффективность. ✈️«Архипелаг БИГТЕХ»