Post #1700

@ai_volution

ИИволюция 👾

Просмотры3,590Количество просмотров

Опубликован6 февр.06.02.2026, 06:55

Содержимое поста

Содержимое

Ждали Sonnet 5, а получили Opus 4.6 TLDR: 1M контекста, 128K выход, adaptive thinking, SOTA на агентном кодинге, бьёт GPT-5.2 на 144 Elo, Agent Teams в Claude Code, Claude в PowerPoint, $5/$25 за млн токенов. Вчера произошло нечто новое для индустрии - Anthropic и OpenAI выкатили свои флагманы с разницей в 20-30 минут. Opus 4.6 и GPT-5.3-Codex в один день. Т.е. релизы не разнесли в разные дни, а намеренно выпустили почти одновременно, чтобы затмить инфоповод. Что нового в модели: - Контекст 1 млн токенов (но с пометкой "бета"). Впервые для Opusов - Выходной контекст 128K токенов вместо 64K (без пометки бета) - Adaptive thinking - модель сама решает, думать или нет и сколько. Старый budget_tokens помечен как deprecated (привет, ultrathink) - Параметр effort с уровнями low/medium/high/max - на low может вообще не включать рассуждения для простых вопросов Бенчмарки: Terminal-Bench 2.0 (агентный кодинг) - 65.4%, на момент релиза лучший, но через полчаса Codex 5.3 показал 77.3%. ARC AGI 2 (абстрактное рассуждение) - 68.8% против 37.6% у Opus 4.5, рост на 83%. GDPval-AA (финансы/юриспруденция) - обгоняет GPT-5.2 на 144 Elo, Opus 4.5 на 190. Humanity's Last Exam (задачи уровня PhD), BrowseComp (поиск в сети), DeepSearchQA (многошаговый поиск) - лидер на всех трёх. Ну и мой любимый, Vending-Bench 2 (модель управляет вендинговым автоматом - закупки, продажи, цены) - Opus 4.6 заработал $8,017, Gemini 3 Pro $5,478, Opus 4.5 $4,967, GPT-5.2 $3,591. Контекст в миллион токенов отдельная история. На тесте MRCR v2 (найди 8 иголок в миллионе токенов) - 76% точности (93% на 256К контекте). Sonnet 4.5 на том же тесте - 18.5%. Нужно тестировать, как минимум пока в Claude Code /context показывает всё те же 200К. Что завезли в Claude Code: – Agent Teams (экспериментальное) - рой агентов, которые работают параллельно, могут общаться друг с другом и координурет их дядька Черномор (тим-лид). Каждый агент занимается своей задачей. Использовать с умом и осторожностью! Расскажу отдельным постом детали. – Auto-memory. Нигде в релизе не увидел, но в CLI точно появилось. Агент записывает важные заметки о проекте между сессиями, особенно когда возникает ошибка, вы указываете на неё и агент запоминает это в память. И небольшой бонус: – Claude в PowerPoint (research preview) - читает лейауты, шрифты, slide masters и генерирует презентации с сохранением брендинга. Что нового в API: – Цена осталась та же - $5/$25 за млн токенов. – Для тех, кто работает с разработкой через API, появился серверный Compaction API (бета). Вместо старой клиентской компрессии контекста теперь можно: задать точный порог срабатывания (от 50K токенов), поставить на паузу после сжатия и дописать важные сообщения, дать инструкции что сохранять при суммаризации, выстроить бюджет суммарных токенов. В ответе приходит детальный usage по каждой итерации. В Claude Code CLI по подписке этих ручек пока нет - там всё тот же авто-компакт с фиксированным порогом и /compact. Детали о релизе в блоге у антропиков. А теперь тестить, тестить!