Post #92

@ai_driven

AI-Driven Development. Родион Мостовой

Просмотры807Количество просмотров

Опубликован15 апр.15.04.2025, 05:39

Содержимое поста

Содержимое

ChatGPT 4.1 Не знаю, интересно ли читать про сомнительные релизы моделей, но, может, кому сэкономлю время. tl;dr Релиз зайдет тем, у кого основной рабочей моделью для разработки до сих пор была модель уровня ChatGPT 4o. А если вы избалованы Sonnet'ом и окончательно развращены Gemini 2.5 Pro, этот релиз вас оставит в недоумении. Релиз Выпустили ChatGPT 4.1 с как модель для разработчиков, целую supermassive black hole (скорее всего именно она скрывалась некоторое время в бенчах и на OpenRouter под кодовым именем Quasar). У неё 3 варианта - обычная, mini & nano. Тут я буду рассматривать обычную, самую умную. Доступна модель только по API (т.е. на сайте ChatGPT её не будет). В Windsurf её сделали бесплатной на неделю, в Cursor - на день, в OpenRouter тоже завезли. Давайте про плюсы ● 1м контекста, причём этот контекст модель держит хорошо для не-ризонера (по крайней мере до 120к согласно бенчу Fiction.LiveBench), но отстаёт по его удержанию от лидеров ● скорость - очень быстро переваривает промпт и очень быстро генерит ответ (отчасти из-за того, что она не ризонер) ● цена output-токенов примерно в 2 раза ниже, чем у Sonnet/Gemini Все остальные её подвижки - они относительно 4o, довольно слабой модели для кодинга, и именно с ней сами OpenAI новую модель и сравнивают. Но даже со всеми этими улучшениями она ощутимо хуже Sonnet/Gemini: ● получше в следовании инструкциям, чем 4o; ● охотнее использует инструменты в агентском режиме (тут она даже преодолевает крайне низкую планку o3-mini); ● умнее в ряде hard-skill бенчей, включая олимпиадные задачи, но, как ни странно, не во всех - иногда примерно те же результаты, что и у 4o. Релевантные бенчмарки ● Aider Polyglot, 13 место - близкие к реальным задачи разработки; ● Fiction.LiveBench - удержание длинного контекста; ● Scale MultiChallenge, 10 место - новый интересный бенч, про стабильность работы в многоходовых диалогах с людьми; ● LiveBench Coding, 13 место (тут какая-то аномалия, mini-вариант модели - на 9м месте) - олимпиадные задачки по программированию. Личный опыт Провел несколько часов с моделью в Cursor/Windsurf в попытках понять, зачем она существует, и по ощущениям как на полгода-год назад вернулся, даже перечислять все косяки лень. Для кого этот релиз? ● для тех, кто в силу каких-либо причин вынужден был использовать 4o, но вот теперь у них есть выбор :) ● для тех, у кого хорошо разбиваются рабочие задачи на мелкие и при этом не очень сложные куски; ● у кого есть потребность быстро писать много кода по четким инструкциям (а потом выбрасывать и снова писать); ● возможно, это рабочая лошадка для будущих фронтир моделей (o3/o4-mini), которые её как раз смогут эффективно использовать как исполнителя. Короче, как по мне, так пропускаем этот релиз и ждём o3/o4-mini как следующие потенциально интересные модели. А может, я что-то упускаю? Дайте знать - может, есть какие-то сценарии использования, где она лучше всех других моделей по сочетанию характеристик? — Почитать про текущую SOTA по версии меня: ● Gemini 2.5 Pro Experimental, общая инфа ● Gemini 2.5 Pro Experimental, личные впечатления ● Gemini 2.5 Pro Exp + Cursor #news#ai#model