TGTGInsightаналитика telegramLIVE / telegram public index
← ИИволюция 👾
ИИволюция 👾 avatar

TGINSIGHT POST

Post #875

@ai_volution

ИИволюция 👾

Просмотры2,760Количество просмотров
Опубликован25 дек.25.12.2024, 07:54
Содержимое поста

Содержимое

Там обновленная o1 появилась на Livebench и просто порвала всех Livebench примечателен тем, что он постоянно обновляется, минимизируя всевозможные лики и гарантируя, что задачи не устаревают и не становятся слишком простыми. Так вот с появлением на борде o1 Gemini Exp 1206, Sonnet 3.5 v2 и предыдущие o1-mini и o1-preview остаются позади с большим отрывом как на главном замере, так и на, конечно, ризонинге. Сравните: о1-preview демонстрирует 67%, и была раньше безусловным лидером, а у полной o1 насчитали… аж 91.58%! В кодинге прирост тоже есть, но не такой невероятный. Предыдущим лидером был Claude-3.6 Sonnet с 67%. Теперь он уступает o1, но всего на 2.5 процентных пункта. А по математике в лидерах все еще Gemini. Кстати, обратите внимание, как у обеих Gemini резко растут метрики с появлением второго промпта с подсказкой (последний столбец IF).