TGTGInsightаналитика telegramLIVE / telegram public index
Содержимое поста
Содержимое
Появился рейтинг GPT-4.5-preview на LMSYS Arena, где люди вслепую выбирают, какая модель из пары лучше отвечает на их вопрос. Без лишних слов: смогли (на вайбе). С учётом контроля стиля (штраф за длину ответа, количества заголовков и списков, итд) модель существенно отрывается от Grok 3 (Early)и Gemini 2.0 Pro Experimental. В общей таблице (вторая картинка) не все категории имеют контроль стиля, поэтому отдельно сделал ещё скриншот Coding и Multi Turn (диалоги с более чем 1 ответом модели). Смотреть остальные срезы — тут.