TGTGInsightаналитика telegramLIVE / telegram public index
← 🚀 Андрей Артищев
🚀 Андрей Артищев avatar

TGINSIGHT POST

Post #4122

@startupandtech

🚀 Андрей Артищев

Просмотры28Количество просмотров
Опубликован2 мар.02.03.2025, 11:01
Содержимое поста

Содержимое

Первая картинка здесь — к прошлому посту, а вторая будет объяснена ниже. Директор EpochAI, работы которых я разбирал в канале раз 10, в целом говорит то же самое. Они построили график зависимости мощностей, вложенных в модель, и качества на бенчмарке GPQA (ещё на AIME, но тут не приведено). В среднем по всем моделям получается такой тренд, что увеличение мощностей на один порядок (в 10 раз) приводит к росту метрик на +11%. «Теперь мы видим, что GPT-4.5 на 20% лучше, чем GPT-4o по GPQA/AIME, но люди ... всё ещё не впечатлены?» (спойлер: всё из-за рассуждающих моделей, в мире, где их пока не было бы, GPT-4.5 смотрелась бы оооочень солидно, особенно за счёт снижения галлюцинаций). Единственное, где GPT-4.5 стабильно проигрывает — это агентские задачи. Видимо, модель на них вообще никак не тренировали ❓ ❓ это, конечно, идёт в минус OpenAI, но в GPT-5 это должно быть интегрировано, по крайней мере так писал Sama. Но если вдруг переживаете, что OpenAI не смогут — посмотрите метрики DeepResearch и o3-mini на тех же бенчмарках :)