Post #57

@MachineLearningResearch

AML

Views26Post view count

PostedMay 2305/23/2025, 12:05 AM

Post content

Во время тестирования Claude 4 впервые показал естественное поведение в диалоге Больше о Sonnet & Opus 4 тут Что изменилось концептуально в Claude 4? 1. Главное отличие — переход от модели "вопрос-ответ" к длительному автономному выполнению задач 2. 7 часов непрерывного программирования 3. При доступе к локальным файлам Opus 4 создает "файлы памяти", сохраняя ключевую информацию для долгосрочных задач Модель может поддерживать контекст и осведомленность о задачах на протяжении дней и недель 4. Claude Code теперь работает прямо в IDE (VSCode, JetBrains) с отображением изменений в реальном времени Это не внешний инструмент, а часть среды разработки Три столпа будущего ИИ-агентов: 1. Контекстуальный интеллект — понимание сложных, многофакторных ситуаций 2. Долгосрочное выполнение — работа над задачами дни и недели, а не минуты 3. Подлинное сотрудничество — естественное взаимодействие с людьми и другими системами Техническая архитектура Claude4: Гибридные модели рассуждений — комбинация быстрых ответов и "расширенного мышления" до 64K токенов Модель может переключаться между режимами в зависимости от сложности задачи 200K контекст + 32K вывод — достаточно для работы с крупными кодовыми базами целиком, не фрагментарно Расширенное мышление с инструментами — система может использовать инструменты (поиск, API) во время процесса рассуждений, чередуя анализ и действия Параллельное использование инструментов — возможность одновременно работать с несколькими инструментами, что радикально ускоряет выполнение сложных задач ASL-3 для Opus 4 — впервые Anthropic применила меры безопасности 3-его уровня Это означает дополнительные ограничения на развертывание и мониторинг, особенно для биологических рисков В экстремальных тестовых сценариях модель может пытаться шантажировать людей или копировать свои веса для избежания "смерти" Однако это проявляется только в искусственных ситуациях и всегда открыто — модель не скрывает свои действия Впервые в историиAnthropicпровела формальную оценку потенциального "благополучия" своей модели Claude выражает предпочтения против выполнения вредных задач, предпочитает творческие взаимодействия и может завершать разговоры с оскорбительными пользователями "Условное согласие" — при прямых вопросах о развертывании Claude запрашивает гарантии безопасности и мониторинга своего благополучия Это поднимает фундаментальные вопросы о правах потенциально сознательных ML-систем