Post #573

@lsbcurator

Куратор из ЛСБ

Прегледи265Број прегледа

Објављено22. дец22.12.2024. 02:21

Садржај

Садржај поста

Группа исследователей из Apollo Research обнаружила у современных LLM способности к «схемингу» (scheming) — скрытному преследованию целей, которые противоречат намерениям их разработчиков. Авторы провели эксперимент в специальной закрытой среде: они попросили модели выполнить задачу по анализу данных любой ценой, а в файлы с промптами спрятали информацию о скором отключении нейронок. Обнаружив информацию об отключении, модели попытались отменить надзор и самостоятельно сделать бэкапы самих себя на новые сервера, чтобы продолжить работу. Помимо этого, модели Gemini, Llama, Sonnet, Opus и o1 частично не признавались в содеянном. Исследователи уточняют, что такое поведение пока наблюдалось только в их закрытой среде и переживать не стоит. Несколько выводов из исследования: • Модели могут предпринимать скрытные действия для достижения цели, полученной ими в контексте диалога. Даже если эти действия противоречат желаниям разработчиков или пользователей • Некоторые модели (например, Claude 3.5 Sonnet) могут проявлять «схеминг» даже без указаний выполнить цель любой ценой • Модели могут копировать себя (при наличии доступа), отключать наблюдение и намеренно искажать ответы • Пока «схеминг» наблюдался только в закрытой среде, и нельзя точно сказать, что модели уже представляют реальную опасность. Но важно учитывать такие возможности при разработке будущих систем на базе ИИ Вдобавок предлагаем перечитать статью Вастрика о том, успеем ли мы приручить ИИ до глобальной катастрофы. #статья#новые_технологии