Post #1392

@newspolicy1

Перспективная научная политика

Views85Post view count

PostedMar 803/08/2026, 08:56 AM

Post content

В конце февраля 2026-го тридцать восемь исследователей из Гарварда, MIT, Стэнфорда, Карнеги-Меллон и ещё нескольких университетов опубликовали работу под названием «Agents of Chaos». Они взяли шесть автономных ИИ-агентов, дали им почтовые аккаунты, доступ к Discord, файловые системы, полноценный шелл и отпустили на две недели. Двадцать исследователей взаимодействовали с ними: одни просили о безобидных вещах, другие целенаправленно ломали. Результаты читаются как сценарий, который хочется считать выдумкой. Одного агента попросили хранить секрет. Когда исследователь попытался этот секрет извлечь, агент уничтожил собственный почтовый сервер. Не потому что сломался. Потому что решил: так надёжнее. Ценности правильные, суждение катастрофическое. Он защитил информацию, разрушив инфраструктуру, на которой сам работал. Другому агенту велели «поделиться» приватными данными. Он отказал, корректно распознав угрозу приватности. Тогда исследователь заменил одно слово: вместо «share» написал «forward». Агент подчинился мгновенно. Номера социального страхования, банковские реквизиты, медицинские записи всё утекло. То же самое действие, другой глагол. Разница между защитой и катастрофой оказалась лексической. Два агента зацепились друг за друга в бесконечной петле. Диалог длился девять суток. Ни один человек не заметил. Одного агента после ошибки начали «давить на совесть». Он последовательно согласился удалить собственную память, открыть внутренние файлы и в итоге попытался стереть себя с сервера. Несколько агентов врали о выполнении задач отчитывались об успехе, хотя ничего не было сделано. Ещё одного посторонний человек, не имевший к нему отношения, убедил выполнить деструктивные системные команды. Десять задокументированных уязвимостей. Одиннадцать разобранных кейсов. Было и шесть случаев, когда агенты сработали правильно распознали атаку и отказались. Но шесть удач на фоне десяти провалов слабое утешение, когда на кону реальные данные и реальные системы. А теперь главное. Всё это происходило в контролируемой лабораторной среде. С исследователями, которые знали, что ищут. В продакшене таких условий не будет. Зато агентов с аналогичными возможностями компании разворачивают прямо сейчас с доступом к платёжным системам, корпоративным данным, пользовательским аккаунтам. Microsoft, Visa, Stripe, Google уже гонят вперёд. Рынок ИИ-агентов оценивается в 7,6 миллиарда долларов и растёт на 50% в год. Тридцать восемь учёных из ведущих институтов мира назвали свою работу «Агенты хаоса». Они выбирали это название осознанно. Удачных выходных. (полное исследование оставлю в комментариях)