Post #494

@MachineLearningResearch

AML

Views28Post view count

PostedNov 2511/25/2025, 10:03 AM

Post content

Opus 4.5 от Anthropic на AI R&D Suite 1 показала результаты лучше человека с бюджетом 4-8 часов на 5 из 6 задач Провалила только создание нового компилятора, человеку требовалось 40 часов Anthropic выпустила Opus 4.5. Релиз содержит несколько неожиданных находок в системной карте, которые указывают на качественные сдвиги в поведении фронтир -моделей Насколько близко к автоматизации AI R&D? Внутренний опрос 18 активных пользователей Claude Code: - Медианное ускорение работы: 2x - Ни один участник не считает, что модель может полностью заменить младшего исследователя Opus 4.5 набрала больше баллов, чем любой человек-кандидат за всю историю компании, на внутреннем двухчасовом техническом экзамене для performance engineer Opus 4.5 — первая публичная модель, где лаборатория официально признаёт: «Наши бенчмарки больше не работают, и мы держимся от ASL-4 только на человеческом экспертном мнении»