TGTGInsighttelegram intelligenceLIVE / telegram public index
← AI[ex]Time
AI[ex]Time avatar

TGINSIGHT POST

Post #143

@AIexTime

AI[ex]Time

Views1,600Post view count
PostedSep 509/05/2025, 08:02 PM
Post content

Post content

В SWE-ReBench добавили 52 новых задачи за август, результаты по ним на первой картинке. Напомню, что это бенчмарк-аналог SWE-Bench, где задачи собираются с GitHub за последний месяц, и модели точно не могли видеть решения во время тренировки. Claude Sonnet 4, если судить только по этим новым задачам, вышла на первое место, но статистически значимого отличия от GPT-5-medium и high нет. Зато есть отличие в цене, и ведь это даже не Opus! Ещё добавили GLM-4.5 (четвёртое место), Grok Code Fast 1 от xAI — внезапно забрался в топ, и цена очень вкусная, сущие копейки, gpt-oss-120b на уровне Gemini 2.5 Pro и Qwen3-235B-A22B-Thinking (все — где-то глубоко внизу таблицы, 18-20 место) На второй картинке приложил срез, включая июль (82 задачи в сумме), и GPT-5 продолжает лидировать, хоть и без существенной разницы с Claude Sonnet 4. Эти две модели значимо отличаются от всего, что идёт за ними, Qwen, o3 и дальше. На сайте можно нажать кнопочку Inspect и посмотреть своими глазами, что за PR/Issue подсовывали моделям.