TGTGInsightаналитика telegramLIVE / telegram public index
← AI-Driven Development. Родион Мостовой
AI-Driven Development. Родион Мостовой avatar

TGINSIGHT POST

Post #21

@ai_driven

AI-Driven Development. Родион Мостовой

Просмотры2,110Количество просмотров
Опубликован27 июн.27.06.2024, 10:10
Содержимое поста

Содержимое

Лучшая модель для кодирования - Claude Sonnet 3.5 Вы уже наверняка слышали, что Anthropic на днях выпустили новую LLM, которая во многих бенчмарках обходит gpt-4o. Таким образом, Claude Sonnet 3.5 становится лучшей моделей для написания кода на сегодня. Действительно ли лучшая? Скорее всего, да. Я уже писал о своем любимом бенчмарке на кодирование LiveCodeBench - это набор задач а-ля литкод разной сложности. Так вот, в LCB в задачках средней сложности новая Sonnet примерно на четверть обходит gpt-4o, а вот в Hard задачки она решает аж в 2 раза лучше! (даже чуть больше). Теперь понятно почему у людей новая соннет действительно решает принципиально более сложные задачи лучше, чем gpt-4o. Кстати, неожиданные результаты в бенчмарке aider - обычные правки новая Sonnet действительно делает лучше всех с отрывом от GPT-4o на 5.3% (и то при формате редактирования whole, но это уже детали). При этом сразу за Sonnet идёт новая DeepSeek Coder V2, слегка опережая GPT-4o - видимо, из-за лучшего следования инструкциям. А вот, в задачах на рефакторинг (с большим контекстом), новая Sonnet заметно проседает и отстаёт от Opus на 17.2%, и от GPT-4o на 7.8%. Мой опыт 1. Мою сложную задачу на вычисление максимальной глубины проекта в зависимостях в итоге смогла решить только новая Sonnet, остальные не вывозили, как я их ни мучал. 2. Новая Sonnet смогла полностью реализовать программу для мерджа множество .NET солюшенов в один большой солюшн (правда, с моими подсказками). Об этом я напишу в отдельном посте. Так что, рекомендую попробовать (особенно скептикам) - возможно, нейросети вам откроются с новой стороны. Как воспользоваться? A) На сайте Claude новая моделька доступна даже в бесплатной версии (с определенными лимитами). B) Через OpenRouter (после регистрации). — Пробелов.NET. Спасибо, что читаете :)