Содержимое
Актуальная картина по LLM для разработки на октябрь Звезда недели — Claude Sonnet 3.5 v2 — самая практичная модель для кодинга Многие ждали новую Opus, но Anthropic всех удивили слегка улучшенной Sonnet. И действительно, если посмотреть на мой любимый бенчмарк LCB, то там новая Sonnet и вовсе оказалась даже чуть хуже своего предка (50.2 vs 50.8 на всей выборке). А вот если посмотреть LiveBench (они расширили секцию кодинга задачами на заполнение недостающего кода, а также добавили несколько других секция, включая Reasoning). claude-3-5-sonnet-20241022 - это и есть Claude 3.5 Sonnet v2. Можно было бы и на этом закончить, но давайте пойдем дальше. Я иногда люблю поглядывать бенчмарк от aider - из него уже можно получить более практичную картину по LLMкам в программистских задачах, требующих работы с несколькими файлами одновременно или даже рефакторингов. Так вот, в aider новая соннет показывает результаты даже круче, чем o1 (o1 очень "умная", но у нее проблемы с соблюдением форматов). Особенно существенный прирост (почти 30%) мы видим как раз в задачах на рефакторинг (у меня, например, таких больше всего в реальной разработке). Так что, работу ребята из Anthropic проделали существенную, за что им и спасибо. Кстати, самое интересное, что Anthropic со своей новой моделью с ходу залетели в лидерборд бенчмарка по разработке ПО SWE-bench Verified, еще и сразу с лучшим результатом (49%). Тут я обращаю внимание на то, что они использовали не чистую модель, а некий Tools (в посте ниже описываю как они этого добились) - результат потрясающий. Еще, отрадно видеть в этом лидерборде весьма неплохие результаты от команды nFactorial AI (ребята из Казахстана). Как попробовать обновленную Sonnet? 1) В веб интерфейсе Anthropic (после регистрации и с лимитами) 2) Через API Anthropic (платно) 3) Через веб интерфейс или API OpenRouter (платно) 4) Через Blackbox (слева сверху нужно выбрать модель Sonnet (работает хорошо, но нет 100%-й уверенности, что это именно новая Sonnet). 5) Через LLM Playground (бесплатно и с лимитом до 1000 символов) 6) Через телеграм-бот Ильи Гусева (бесплатно всего 3 запроса в день) Qwen 2.5 Ins 72B - открытая модель уровня GPT-4o в кодинге Что еще случилось за этот месяц? Ребята из Alibaba Cloud выпустили очередное обновление своей линейки Qwen до версии 2.5. Теперь их самая большая моделька Qwen2.5-72B-Instruct кодит на уровне самых топовых закрытых моделей, на уровне GPT-4o (судя по LCB). Эта модель доступна через OpenRouter по цене в несколько раз ниже GPT-4o. Ну и последний фаворит (точнее, фаворитка) - модель Qwen 2.5 Coder Ins 7B, показывающая в LCB результаты в кодинге, сопоставимые с одной из первых версий gpt-4 (а это очень достойный уровень). В действительности, именно с этой моделью все сложнее, т. к. если выборку начать с 4/1/2024, то в рейтинге эта модель сильно падает аж до уровня Claude 3 Haiku. Так что, возможно, ее как-то очень по хитрому обучили на задачах из бенчмарка. Но если вы любитель локальных моделей, то попробовать стоит в любом случае. А вот нашумевшая модель llama-3.1-nemotron-70b оказалось не такой уж и выдающейся (Qwen 2.5 72B показывает существенно лучшие результаты). — Еще одна хорошая новость - я расширяю команду проекта CodeAlive, в котором мы делаем поиск по коду на естественном языке, существенно превосходящий аналогичные решения в качестве и кое-что большее. Waitlist здесь. Еще, у меня за последние пару месяцев накопилось с десяток разных идей продуктов с GenAI под капотом, но времени на их реализацию нет совершенно. Поэтому, если у кого-то из вас давно чесались руки сделать GenAI пет-проект - напишите мне, я поделюсь идеями и, возможно, даже своими представлениями по реализации. — Пробелов.NET. Спасибо, что читаете :)