Post #785

@MachineLearningResearch

AML

Views35Post view count

PostedMar 2403/24/2026, 10:14 AM

Post content

Anthropic показал, как Opus 4.6 может несколько дней подряд автономно работать над сложными задачами почти без человека. Исследователь из Anthropic взял задачу из области, в которой сам не является специалистом, и попросил Opus 4.6 написать сложный численный код для космологии, который обычно делают годами Агент сам писал код, сам тестировал, находил ошибки, фиксировал в журнале, что сработало, а что нет Главное открытие этого кейса не в том, что агент умный, а в том, что ему нужна правильная инфраструктура, как любому сотруднику нужны инструменты и регламенты Ключевые элементы: • файл с заданием, который агент держит в голове всё время работы и может сам обновлять • журнал прогресса, где фиксируются не только успехи, но и тупики, чтобы не повторять их • эталон, с которым агент сверяет результат на каждом шаге Без эталона агент не знает, движется ли он вперёд Ещё одна проблема, которую решили отдельно - агент склонен останавливаться раньше времени Ранее такие инструменты использовали в режиме диалога, а теперь появился другой режим - ставишь задачу, настраиваешь процесс и агент работает сам, пока ты занимаешься другой хуйнёй