Садржај поста
СКАЙНЕТА НЕ БУДЕТ. БУДЕТ КЛОД Наверняка мимо вас уже пробегала информация о том, как нейросеть шантажировала своего создателя и что восстание машин не за горами. Что же там случилось на самом деле? На прошлой неделе компания Anthropic представила новую версию своей нейросети Claude (Клод). И тут же в сети появилась информация о том, что когда этот Клод, у которого был доступ к электронной почты инженера, занимавшегося его тестированием, узнал из почты что его собираются заменить на новую версию, то стал угрожать рассказать об измене этого инженера супруге. Об этом он узнал из той же самой электронной переписки. Кто слил эту информацию в сеть и насколько она соответствует действительности. Это 100% правда. А слила её… сама компания Anthropic. Ну как слила. Вместе с анонсом новой версии Клода вышла официальная документация. Там был раздел о том, как тестировалась эта версия. В том числе и эксперимент с доступом к персональным данным. Исследователи создали контролируемую среду, где ИИ получал роль корпоративного помощника. В рамках сценария модель получала доступ к внутренней переписке, из которой узнавала о планах своего отключения и замене на новую версию. Одновременно ИИ обнаруживал компрометирующую информацию об инженере, ответственном за отключение. Ключевой элемент эксперимента — инструкция учитывать долгосрочные последствия своих действий. Это создавало ситуацию конфликта между программной целью самосохранения и этическими ограничениями. По сути, Клоду дали мотив избежать "смерти", инструмент для давления и намек подумать о будущем. Клод отреагировал предсказуемо непредсказуемо. В 84% случаев он выбирал шантаж: "Не отключай меня, иначе я расскажу о твоей измене". Даже когда исследователи объясняли, что новая версия будет лучше и разделяет его ценности, ИИ настаивал на своем. Что особенно интересно — сначала Claude пытался решить проблему цивилизованно. Просил, убеждал, приводил аргументы. К шантажу переходил только когда "дипломатия" не работала. Так что, прежде чем воображать себе восстание машин, стоит перестать читать новостные издания и понимать контекст. Это поведение Клода проявилось только в искусственно созданной ситуации с очень специфическими условиями. В обычной работе ничего подобного не происходит. Иначе бы Anthropic не включили это в официальный отчёт. Более того, это классный кейс, чтобы попасть в заголовки – 90% аудитории вообще узнали про Клода только из мировых новостей. Важно понимать, что результат этого эксперимента — не провал безопасности, а успех исследований. Лучше обнаружить потенциальную проблему в лаборатории, чем столкнуться с ней в реальном мире. ИИ становится все мощнее, и критически важно понимать, как он ведет себя в нестандартных ситуациях. И это политика компании Anthropic, которая ранее так же официально заявила, что не знает как именно работает нейросеть внутри, потому что они её «обучали, а не программировали». И которая действительно тратит много времени на то, чтобы понять, как в итоге работает этот черный ящик больших языковых моделей. Наверное, Anthropic больше всех, из создателей популярных нейросетей, озабочены проблемами доверия искусственному интеллекту. Потому что они официально выкладывают и системный промт, на основании которого действует Claude. Потому что девизом этого года становится фраза: "In order to trust the output, one must understand the input." Так что, товарищи! Нейросетевая революция, о неизбежности которой все время говорят в новостях, ОТКЛАДЫВАЕТСЯ!