TGINSIGHT CHAT
AI-Driven Development. Родион Мостовой
@ai_driven
ТехнологииУвлекательно рассказываю про AI в разработке, про построение продуктов с LLM под капотом и иногда про .NET. Связь: @rodion_m_tg Чат: @ai_driven_chat
Последние посты
Тег: #model · 4 постов
Claude 4, обзор Прошло несколько дней работы с Claude 4, так что можно сказать пару слов. Если вкратце, то для меня теперь выбор моделей для разработки выглядит так: Sonnet 4 ● если нужно подёргать много тулов (полазить по проекту, вызвать MCP, просто задачи вида "запускай тесты и фикси баги до посинения, пока всё не исправишь") ● задачи, для которых отсутствует заранее подготовленный контекст или его просто лень собирать :) ● небольшие повседневные задачи, где не нужно много думать ● веб-разработка Gemini 2.5 Pro ● все задачи, где нужен длинный контекст ● иии... почти все остальные задачи o3 ● случаи, когда нужен чистый ризонинг Переход с других моделей на Claude 4 ● с Sonnet 3.7 - однозначно переходить: * изменения в коде стали точнее * лучше следует инструкциям и держит контекст * менее упорот - иногда всё-таки делает то, что не просят, но намного реже * новый cutoff - конец января 2025 ● с Gemini 2.5 Pro - как минимум, стоит попробовать на своих задачах: * лучше использует тулы * структурнее подходит к решению задач По поводу Opus 4: хорошо кушает токены и, как следствие, деньги (у меня $1/мин уходило в нескольких тестах). Если у вас есть Claude Max, где не нужно платить за токены, то Opus можно использовать для сложных задач вместо Sonnet 4, а также в сценариях, когда нужно что-то долго делать с активным использованием тулов в процессе. Далее в основном буду говорить про Sonnet. Бенчмарки Если приглядеться к числам на "хардовых" бенчмарках, то выглядит так себе - от мажорного релиза ожидалось большего. По многим из них новый Sonnet несильно отличается от прошлого 3.7, а местами даже хуже. Но на паре результаты всё-таки неплохие: ● MultiChallenge - стабильность работы в многоходовых диалогах с людьми ● Recall on Codebase Questions - метрика от Cursor, про которую ничего, кроме названия, неизвестно - будем считать, что это "доля правильных ответов на вопросы по кодовой базе при её исследовании в режиме агента" И это подводит нас к следующему пункту: В чём же хорош Claude 4? Anthropic в анонсе много говорили именно про использование новых моделей в агентских сценариях и их интеграции в соответствующий инструментарий (например, в Claude Code & Claude Desktop). И да, это у них вполне получилось - модели действительно очень хорошо работают с разными тулами и тащат длинные задачи (Opus у самих Anthropic работал до 7 часов, а на Reddit был результат в 40+ минут от пользователя). За счёт этого они в реальной работе оказываются лучше, чем можно было бы предположить, смотря лишь на "хардовые" бенчмарки. Потенциал Claude 4 не раскрыть в окружении, где нет тулов - у неё просто не так много других способностей, по которым бы её не обходили модели конкурентов. Особенности ● охотнее сама строит планы для задач и потом их придерживается ● чаще делает какие-то временные скрипты для тестирования, проверки своих гипотез и т.п. Если нет нужного инструмента - сделай его :) Иногда она их удаляет по завершению задачи, но чаще оставляет в проекте, приходится вычищать. Anthropic даже в своём Claude 4 prompt engineering best practices добавили секцию о том, как такое поведение ограничить ● помните, что модель стала делать меньше делать то, что не просят? Так вот, можно наоборот попросить уйти в отрыв: Don't hold back. Give it your all. - это из того же гайда по промптингу Claude 4 :) Проблемы ● доступность API - это уже стало особенностью Anthropic, что в моменты пиковой нагрузки отваливаются запросы, инференс тормозит и вообще работать невозможно ● всё ещё может ходить кругами при решении проблем, хоть и реже - почему-то именно линейка Sonnet этим выделяется ● смайлики проникли и в Sonnet - ощущение иногда, что с ChatGPT 4o общаешься :) Заключение Противоречивый релиз, конечно, вышел. Anthropic явно сфокусировались на определенных нишах - агентские системы и кодинг, - уйдя от построения моделей общего назначения (возможно, в силу ограниченности ресурсов на фоне конкурентов). Посмотрим, к чему это их приведёт в перспективе, ну а пока что для Sonnet 4 у меня явно найдётся работа :) #ai#model#review
ChatGPT o3 и немного o4-mini (1/2) Итак, несколько дней назад вышла долгожданная модель o3 и семейство o4-mini. Новостники по сложившейся традиции объявили революцию в ИИ, конец профессии разработчика и наступление эры AGI. Да, ожидания были высокими, особенно в свете последних релизов Anthropic и Google. Попробуем разобраться, насколько они оправдались. Кратко по выбору модели для разработки Универсального лидера нет - выбор зависит от задачи, бюджета и требований к контексту/ризонингу. Повседневные задачи 🥇Gemini 2.5 Pro: универсальная модель, фактически единственная для работы с длинным контекстом, отличный ризонинг, но местами проседает в работе с тулингом 🥈Claude 3.7 Sonnet: закрывает те задачи, которые требуют проактивности, хорошей агентскости, а также повседневную мелочь Архитектура и планирование 🥇Gemini 2.5 Pro: в силу общей эрудиции и большого контекста с ней такие вопросы решать удобнее всего 🥈o3: для каких-то узких и нетривиальных случаев, где важен мощный ризонинг Сложные задачи, чистый ризонинг 🥇o3: самый мощный на текущий момент ризонер. Подойдет для брейншторминга, поддержки в принятии сложных решений, работы над алгоритмическими проблемами 🥈Gemini 2.5 Pro: лучший практический выбор из-за большого контекста, отличного ризонинга и адекватной цены/длины вывода Длинный контекст (>200k) 🥇Gemini 2.5 Pro: единственный приемлемый вариант на таком контексте А где же o4-mini? Если у вас есть доступ ко всем вышеперечисленным моделям, то они успешно перекрывают все её возможные применения, по крайней мере в разработке, а на фоне её проблем, которые перекликаются с таковыми у o3, я не нашёл ей места в рабочих задачах. OpenAI o3 Флагманский ризонер, заточенный под сложные задачи и научившийся работе с инструментами. Плюсы 🟢Мощный ризонинг - главное преимущество. Модель бьёт все бенчмарки по этому показателю, и в реальности это подтверждается - она способна строить длинные логические цепочки, раскапывать нетривиальные проблемы и плюс к этому использовать инструменты: веб-поиск, Python-интерпретатор и анализ изображений прямо в ходе "размышлений". Что приводит нас ко второму плюсу: 🟢Использование инструментов - прошлые модели о-серии использовали инструменты либо нехотя, либо вообще отказывались их задействовать. Тут же ситуация значительно лучше, но с оговоркой - на сайте ChatGPT она пользуется ими гораздо охотнее, чем через API или в каком-то другом софте. Веб-версию даже можно использовать как мини-вариант DeepResearch, когда модель может делать десятки вызовов к разным инструментам для анализа какой-то темы или решения задачи - и всё в рамках одного запуска. +/- 🟡(Само)уверенность и неуступчивость - o3 реже вам поддакивает и соглашается, если вы ей возражаете, и может аргументированно отстаивать свою позицию. Это ценно для брейншторминга и поиска объективных решений там, где разные мнения имеют право на существование, но запросто может и создавать проблемы. #ai#model#review
ChatGPT o3 (2/2) Минусы 🔴Малая длина фактического вывода ● модель обрезает код, выдает 200 строк вместо ожидаемых 800, пытается его ужать там, где это лишено смысла; ● использует плейсхолдеры вместо реальных имплементаций; ● игнорирует просьбы выдать полный ответ; ● не дает пояснений к тому, что делает и комментариев к нетривиальному коду; И для многих задач разработки одно это делает её неприменимой. Такое ощущение, что ее тренировали на то, чтобы она как можно меньше тратила токенов на ответ. 🔴Ленивое использование инструментов по API - тут, конечно, плюс в том, что о-модель в принципе использует инструменты, но минус в том, что недостаточно активно там, где это нужно, и ей часто приходится указывать на то, какой инструмент использовать на следующем шаге. Напомню, что на сайте ChatGPT свои инструменты она использует куда активнее. 🔴Галлюцинации - есть много жалоб на галлюцинации, особенно на нишевых темах, и этому есть даже подтверждения в system card модели от самих OpenAI. 🔴 "Враньё" - а эта проблема посерьёзнее - сообщения пользователей (и отчёт TransluceAI) о том, что модель может фабриковать информацию о своих действиях (например, имитировать поиск или вызов других тулов) и настаивать на своем, даже будучи неправой. Мне она как-то выдала, что одно из возможных решений задачи снизит количество ошибок с 15 до 1%, хотя я видел, как она сама его недавно проверяла, и у неё по факту не получилось такого результата. Целевые 1% я ей сам озвучивал как достижимые (это в самом деле так), и тут она явно пыталась подогнать свой ответ под мои ожидания. 🔴Высокая стоимость API - несмотря на более низкие, чем у o1, цены, реальная стоимость решения сложных задач с активным ризонингом и тулами может быть очень высокой. К примеру, на бенчмарке Aider Polyglot o3 оказалась в 17.5 раз дороже Gemini 2.5 Pro. Это ставит под вопрос экономическую целесообразность использования её через API. (Личное) Меня напрягает её манера иногда начинать фразы в ризонинге с прямого обращения ко мне по имени или упоминая его где-то в тексте - выглядит криповато-НЛПшно :) Вердикт для разработчиков ● Модель отличная для решения узких сложных задач, но нет смысла ее использовать где-то ещё из-за вышеперечисленных минусов. ● В силу её особенностей передача всего нужного ей контекста заранее является особенно важным - описывайте задачу сразу подробно и со всеми ограничениями, накладываемыми на потенциальное решение. ● Эффективнее будет использовать o3 на сайте ChatGPT в рамках подписки, чтобы не тратить деньги на API и чтобы добиться от нее внятного использования инструментов. В том же Cursor тоже можно (30 центов за запрос), но не стоит рассчитывать, что она сама соберет весь нужный контекст, и лучше озаботиться этим заранее, подготовив её к ваншоту, нежели к долгой переписке :) ● Для ответственных задач, которые выходят за рамки вашей собственной интуиции/понимания, и которые нельзя легко проверить, использовать её нужно с осторожностью, и обязательно делать кросс-чек с той же Gemini 2.5 Pro / специалистами в теме. Несмотря на все её проблемы я сам точно буду её использовать там, где нужен чистый мощный ризонер. Что ждём дальше по моделям? ● DeepSeek R2 / V4 ● Таинственные dayhush и claybrook, которые вчера появились на WebDev Arena и показывают очень хорошие результаты в веб-кодинге (и пока что больше ничего про них неизвестно) - это могут быть специализированные модели от Google для разработки P.S. В этот раз не стал расписывать бенчмарки, т.к. рассказывал кратко про них в постах про другие модели ранее. Думаю как-нибудь отдельно написать, какие и почему важны для программирования, куда смотреть, кому верить, потому что там уже какой заяц, какой орёл, какая блоха. ✍️ - посмотрим, сколько наберётся интересующихся :) #ai#model#review
ChatGPT 4.1 Не знаю, интересно ли читать про сомнительные релизы моделей, но, может, кому сэкономлю время. tl;dr Релиз зайдет тем, у кого основной рабочей моделью для разработки до сих пор была модель уровня ChatGPT 4o. А если вы избалованы Sonnet'ом и окончательно развращены Gemini 2.5 Pro, этот релиз вас оставит в недоумении. Релиз Выпустили ChatGPT 4.1 с как модель для разработчиков, целую supermassive black hole (скорее всего именно она скрывалась некоторое время в бенчах и на OpenRouter под кодовым именем Quasar). У неё 3 варианта - обычная, mini & nano. Тут я буду рассматривать обычную, самую умную. Доступна модель только по API (т.е. на сайте ChatGPT её не будет). В Windsurf её сделали бесплатной на неделю, в Cursor - на день, в OpenRouter тоже завезли. Давайте про плюсы ● 1м контекста, причём этот контекст модель держит хорошо для не-ризонера (по крайней мере до 120к согласно бенчу Fiction.LiveBench), но отстаёт по его удержанию от лидеров ● скорость - очень быстро переваривает промпт и очень быстро генерит ответ (отчасти из-за того, что она не ризонер) ● цена output-токенов примерно в 2 раза ниже, чем у Sonnet/Gemini Все остальные её подвижки - они относительно 4o, довольно слабой модели для кодинга, и именно с ней сами OpenAI новую модель и сравнивают. Но даже со всеми этими улучшениями она ощутимо хуже Sonnet/Gemini: ● получше в следовании инструкциям, чем 4o; ● охотнее использует инструменты в агентском режиме (тут она даже преодолевает крайне низкую планку o3-mini); ● умнее в ряде hard-skill бенчей, включая олимпиадные задачи, но, как ни странно, не во всех - иногда примерно те же результаты, что и у 4o. Релевантные бенчмарки ● Aider Polyglot, 13 место - близкие к реальным задачи разработки; ● Fiction.LiveBench - удержание длинного контекста; ● Scale MultiChallenge, 10 место - новый интересный бенч, про стабильность работы в многоходовых диалогах с людьми; ● LiveBench Coding, 13 место (тут какая-то аномалия, mini-вариант модели - на 9м месте) - олимпиадные задачки по программированию. Личный опыт Провел несколько часов с моделью в Cursor/Windsurf в попытках понять, зачем она существует, и по ощущениям как на полгода-год назад вернулся, даже перечислять все косяки лень. Для кого этот релиз? ● для тех, кто в силу каких-либо причин вынужден был использовать 4o, но вот теперь у них есть выбор :) ● для тех, у кого хорошо разбиваются рабочие задачи на мелкие и при этом не очень сложные куски; ● у кого есть потребность быстро писать много кода по четким инструкциям (а потом выбрасывать и снова писать); ● возможно, это рабочая лошадка для будущих фронтир моделей (o3/o4-mini), которые её как раз смогут эффективно использовать как исполнителя. Короче, как по мне, так пропускаем этот релиз и ждём o3/o4-mini как следующие потенциально интересные модели. А может, я что-то упускаю? Дайте знать - может, есть какие-то сценарии использования, где она лучше всех других моделей по сочетанию характеристик? — Почитать про текущую SOTA по версии меня: ● Gemini 2.5 Pro Experimental, общая инфа ● Gemini 2.5 Pro Experimental, личные впечатления ● Gemini 2.5 Pro Exp + Cursor #news#ai#model