Post #4128

@startupandtech

🚀 Андрей Артищев

Просмотры40Количество просмотров

Опубликован4 мар.04.03.2025, 08:16

Содержимое поста

Содержимое

Появился рейтинг GPT-4.5-preview на LMSYS Arena, где люди вслепую выбирают, какая модель из пары лучше отвечает на их вопрос. Без лишних слов: смогли (на вайбе). С учётом контроля стиля (штраф за длину ответа, количества заголовков и списков, итд) модель существенно отрывается от Grok 3 (Early)и Gemini 2.0 Pro Experimental. В общей таблице (вторая картинка) не все категории имеют контроль стиля, поэтому отдельно сделал ещё скриншот Coding и Multi Turn (диалоги с более чем 1 ответом модели). Смотреть остальные срезы — тут.