Post #188

@MachineLearningResearch

AML

Views33Post view count

PostedJul 2407/24/2025, 05:51 PM

Post content

Anthropic представили ИИ- агентов для аудита безопасности LLM Команда опубликовала исследование о разработке ИИ-агентов Работа решает практическую проблему - как масштабировать процессы проверки безопасности ML-систем, когда ручной аудит требует слишком много времени экспертов Anthropic разработали 3 агента: 1. Агент-исследователь — проводит комплексное расследование модели, используя инструменты интерпретируемости, анализ данных обучения и различные техники тестирования 2. Агент оценки — автоматически создаёт тесты для измерения конкретных типов проблемного поведения 3. Агент красной команды — ищет входные данные, которые могут вызвать нежелательные ответы модели Результаты тестирования Агенты проверили на синтетических задачах с заведомо известными проблемами: - Агент-исследователь обнаружил скрытые цели модели в 13 % случаев (до 42 % при использовании нескольких агентов) - Агент оценки создал корректные тесты для 10 из 10 проблемных поведений - Агент красной команды выявил 7 из 10 внедрённых уязвимостей Агенты пока не идеальны: • Иногда генерируют нереалистичные тестовые сценарии • Могут зацикливаться на одной гипотезе и пропускать другие проблемы • Хуже людей справляются с выявлением тонких, субъективных проблем • Тестировались в основном на искусственных задачах