Post #118

@ai_driven

AI-Driven Development. Родион Мостовой

Просмотры1,660Количество просмотров

Опубликован27 мая27.05.2025, 09:44

Содержимое поста

Содержимое

Claude 4, обзор Прошло несколько дней работы с Claude 4, так что можно сказать пару слов. Если вкратце, то для меня теперь выбор моделей для разработки выглядит так: Sonnet 4 ● если нужно подёргать много тулов (полазить по проекту, вызвать MCP, просто задачи вида "запускай тесты и фикси баги до посинения, пока всё не исправишь") ● задачи, для которых отсутствует заранее подготовленный контекст или его просто лень собирать :) ● небольшие повседневные задачи, где не нужно много думать ● веб-разработка Gemini 2.5 Pro ● все задачи, где нужен длинный контекст ● иии... почти все остальные задачи o3 ● случаи, когда нужен чистый ризонинг Переход с других моделей на Claude 4 ● с Sonnet 3.7 - однозначно переходить: * изменения в коде стали точнее * лучше следует инструкциям и держит контекст * менее упорот - иногда всё-таки делает то, что не просят, но намного реже * новый cutoff - конец января 2025 ● с Gemini 2.5 Pro - как минимум, стоит попробовать на своих задачах: * лучше использует тулы * структурнее подходит к решению задач По поводу Opus 4: хорошо кушает токены и, как следствие, деньги (у меня $1/мин уходило в нескольких тестах). Если у вас есть Claude Max, где не нужно платить за токены, то Opus можно использовать для сложных задач вместо Sonnet 4, а также в сценариях, когда нужно что-то долго делать с активным использованием тулов в процессе. Далее в основном буду говорить про Sonnet. Бенчмарки Если приглядеться к числам на "хардовых" бенчмарках, то выглядит так себе - от мажорного релиза ожидалось большего. По многим из них новый Sonnet несильно отличается от прошлого 3.7, а местами даже хуже. Но на паре результаты всё-таки неплохие: ● MultiChallenge - стабильность работы в многоходовых диалогах с людьми ● Recall on Codebase Questions - метрика от Cursor, про которую ничего, кроме названия, неизвестно - будем считать, что это "доля правильных ответов на вопросы по кодовой базе при её исследовании в режиме агента" И это подводит нас к следующему пункту: В чём же хорош Claude 4? Anthropic в анонсе много говорили именно про использование новых моделей в агентских сценариях и их интеграции в соответствующий инструментарий (например, в Claude Code & Claude Desktop). И да, это у них вполне получилось - модели действительно очень хорошо работают с разными тулами и тащат длинные задачи (Opus у самих Anthropic работал до 7 часов, а на Reddit был результат в 40+ минут от пользователя). За счёт этого они в реальной работе оказываются лучше, чем можно было бы предположить, смотря лишь на "хардовые" бенчмарки. Потенциал Claude 4 не раскрыть в окружении, где нет тулов - у неё просто не так много других способностей, по которым бы её не обходили модели конкурентов. Особенности ● охотнее сама строит планы для задач и потом их придерживается ● чаще делает какие-то временные скрипты для тестирования, проверки своих гипотез и т.п. Если нет нужного инструмента - сделай его :) Иногда она их удаляет по завершению задачи, но чаще оставляет в проекте, приходится вычищать. Anthropic даже в своём Claude 4 prompt engineering best practices добавили секцию о том, как такое поведение ограничить ● помните, что модель стала делать меньше делать то, что не просят? Так вот, можно наоборот попросить уйти в отрыв: Don't hold back. Give it your all. - это из того же гайда по промптингу Claude 4 :) Проблемы ● доступность API - это уже стало особенностью Anthropic, что в моменты пиковой нагрузки отваливаются запросы, инференс тормозит и вообще работать невозможно ● всё ещё может ходить кругами при решении проблем, хоть и реже - почему-то именно линейка Sonnet этим выделяется ● смайлики проникли и в Sonnet - ощущение иногда, что с ChatGPT 4o общаешься :) Заключение Противоречивый релиз, конечно, вышел. Anthropic явно сфокусировались на определенных нишах - агентские системы и кодинг, - уйдя от построения моделей общего назначения (возможно, в силу ограниченности ресурсов на фоне конкурентов). Посмотрим, к чему это их приведёт в перспективе, ну а пока что для Sonnet 4 у меня явно найдётся работа :) #ai#model#review