Содержимое
Что-то уже воскресенье, а бенчмарков GPT-4.5 не то чтобы много появилось (за вчера ни одного нового не увидел), поэтому напишу пост по тому что есть ¯\_(ツ)_/¯ На первой картинке вы видите результаты LiveBench, первая колонка с цифрой — среднее по всем остальным, по оценкам на отдельных категориях. LiveBench стараются обновлять свежими задачами, чтобы уменьшить риск запоминания моделями ответов — правда обновления нечастые, последнее было 25-го ноября. Потенциально выводы ниже нужно будет пересмотреть после выхода обновления, ноне ясно, когда оно будет. Я не ожидаю, что результаты существенно изменятся. Зелёным я закрасил все reasoning-модели, а стрелочками обозначил два прироста 1) от GPT-4o до GPT-4.5 2) от Sonnet 3.6 до 3.7 Видно, что хоть 4.5 и уступает множеству моделей, но все они — рассуждающие, а среди нерассуждающих она занимает первое место, в том числе обходя Grok 3 и Gemini 2.0 по трём колонкам из шести. А ведь эти модели тоже являются представителями «нового поколения», обученного на существенно большем количестве данных и ресурсов. Кстати, интересно, что модель xAI на замерах, проводимых не самой компанией, так падает 🙂спишем на случайность. Кто бы проверил, да вот они API не дают, то есть тесты если и проводить, то только по одному, руками и в браузере. Но мы отвлеклись. Новый Sonnet прыгнул очень сильно, на +6.5%, улучшив все категории, кроме, внезапно, программирования (что скорее показывает силу предыдущей модели, насколько конкретно в этом её прокачали). Причём это — без включения режима рассуждений, с которым модель вообще вырывается на первое место. Но это скорее говорит о том, что добавление навыков к длинным цепочкам рассуждений даже без включения этого самого режима улучшает качество/навыки модели. Это частично подкрепляется тем, что разница между Sonnet 3.5 и 3.6 на предыдущем замере LiveBench ничтожная (программирование там +7%, но при этом среднее по всем задачам выросло всего на +0.53%). GPT-4.5 почти наверняка не обучали рассуждениям через продвинутые методы, но в то же время скорее всего в датасет для дообучения положили какие-то из генераций, полученных моделью o1 или o3 (цепочки рассуждений, как делали дистилляцию DeepSeek'ом). Но и последнюю chatgpt-4o от января '25-го, от которой идёт стрелочка, почти наверняка тоже обучали на этих цепочках — потому что она сама в 3 категориях существенно обходит свою предшественницу. Так что прирост между chatgpt-4o и GPT-4.5 хоть и состоит из двух компонент (дистилляция reasoning'а + улучшение базовой модели), мне кажется, что большая его часть объяснена масштабированием. И этот прирост очень солидный, позволяющий быть топ-1 не-reasoning моделью. А прирост для Claude 3.7 показывает, что если обучить модель рассуждать и не включать режим рассуждений, то она скорее всего и ещё повыше прыгнет, станет лучше. Может быть, когда GPT-4.5 выйдет из preview, мы это увидим. А может и придётся ждать до GPT-5. Но почему мы везде выше мы закрываем глаза на рассуждающие модели, почему их как будто нет? Потому что, как я сразу писал ещё в лонге про o1, это новая парадигма, которая сразу же приносит огромные приросты. Сравнивать их с обычными годится разве что для того, чтобы показать, что это супер и и вправду новая парадигма, но не подходит, чтобы сравнивать качество базовых чат-моделей (а GPT-4.5 таковой является). Так, например, в статье DeepSeek R1 можно увидеть, что модель всего на полтора миллиарда параметров по нескольким математическим и coding бенчмаркам обходит... Claude 3.6. А на 32B — по всем, кроме одного. Но следует ли из этого, что Claude — плохая базовая модель? Конечно, нет. Поэтому увидев такой прирост в чат-модели 4.5 можно представить, какое же большое усиление получит рассуждающая модель поверх неё. И какая будет цена... 🥺