Содержимое
ChatGPT o3 и немного o4-mini (1/2) Итак, несколько дней назад вышла долгожданная модель o3 и семейство o4-mini. Новостники по сложившейся традиции объявили революцию в ИИ, конец профессии разработчика и наступление эры AGI. Да, ожидания были высокими, особенно в свете последних релизов Anthropic и Google. Попробуем разобраться, насколько они оправдались. Кратко по выбору модели для разработки Универсального лидера нет - выбор зависит от задачи, бюджета и требований к контексту/ризонингу. Повседневные задачи 🥇Gemini 2.5 Pro: универсальная модель, фактически единственная для работы с длинным контекстом, отличный ризонинг, но местами проседает в работе с тулингом 🥈Claude 3.7 Sonnet: закрывает те задачи, которые требуют проактивности, хорошей агентскости, а также повседневную мелочь Архитектура и планирование 🥇Gemini 2.5 Pro: в силу общей эрудиции и большого контекста с ней такие вопросы решать удобнее всего 🥈o3: для каких-то узких и нетривиальных случаев, где важен мощный ризонинг Сложные задачи, чистый ризонинг 🥇o3: самый мощный на текущий момент ризонер. Подойдет для брейншторминга, поддержки в принятии сложных решений, работы над алгоритмическими проблемами 🥈Gemini 2.5 Pro: лучший практический выбор из-за большого контекста, отличного ризонинга и адекватной цены/длины вывода Длинный контекст (>200k) 🥇Gemini 2.5 Pro: единственный приемлемый вариант на таком контексте А где же o4-mini? Если у вас есть доступ ко всем вышеперечисленным моделям, то они успешно перекрывают все её возможные применения, по крайней мере в разработке, а на фоне её проблем, которые перекликаются с таковыми у o3, я не нашёл ей места в рабочих задачах. OpenAI o3 Флагманский ризонер, заточенный под сложные задачи и научившийся работе с инструментами. Плюсы 🟢Мощный ризонинг - главное преимущество. Модель бьёт все бенчмарки по этому показателю, и в реальности это подтверждается - она способна строить длинные логические цепочки, раскапывать нетривиальные проблемы и плюс к этому использовать инструменты: веб-поиск, Python-интерпретатор и анализ изображений прямо в ходе "размышлений". Что приводит нас ко второму плюсу: 🟢Использование инструментов - прошлые модели о-серии использовали инструменты либо нехотя, либо вообще отказывались их задействовать. Тут же ситуация значительно лучше, но с оговоркой - на сайте ChatGPT она пользуется ими гораздо охотнее, чем через API или в каком-то другом софте. Веб-версию даже можно использовать как мини-вариант DeepResearch, когда модель может делать десятки вызовов к разным инструментам для анализа какой-то темы или решения задачи - и всё в рамках одного запуска. +/- 🟡(Само)уверенность и неуступчивость - o3 реже вам поддакивает и соглашается, если вы ей возражаете, и может аргументированно отстаивать свою позицию. Это ценно для брейншторминга и поиска объективных решений там, где разные мнения имеют право на существование, но запросто может и создавать проблемы. #ai#model#review