TGTGInsightаналитика telegramLIVE / telegram public index
← AI-Driven Development. Родион Мостовой
AI-Driven Development. Родион Мостовой avatar

TGINSIGHT POST

Post #87

@ai_driven

AI-Driven Development. Родион Мостовой

Просмотры1,370Количество просмотров
Опубликован6 апр.06.04.2025, 19:29
Содержимое поста

Содержимое

LiveSWEBench: Реальный бенчмарк SWE-агентов для народа Пока все пишут о новой лламе, AI-2027 и картинках в Гибли-стиле, расскажу вам про новый интересный бенчмарк, оценивающий качество AI агентов-программистов. Причем не всех в подряд, а тех, которые AI-разработчики чаще всего используют в реальности (Cursor, Windserf, aider, GitHub Copilot). В чём проблема существующих бенчмарков? Когда мы оцениваем AI-ассистентов для программирования, то выясняем, что большинство тестов либо проверяют их на изолированных задачах (HumanEval, LiveCodeBench), либо в полностью автономном режиме (SWE-Bench). Но это не совсем отражает реальность. В повседневной работе мы взаимодействуем с AI по-разному: иногда просим его полностью решить задачу, иногда — внести конкретные правки в файл, или просто используем автодополнение для ускорения написания кода. Как LiveSWEBench это исправляет? LiveSWEBench оценивает AI-ассистентов в трёх ключевых сценариях: 1️⃣Полностью агентные задачи AI получает только описание проблемы из GitHub и должен самостоятельно решить её от начала до конца: найти нужные файлы в большой кодовой базе, разобраться в архитектуре, написать решение и протестировать его. 2️⃣Задачи на "целевые правки" Более реалистичный сценарий: разработчик уже знает, какой файл нужно изменить, и может объяснить на высоком уровне, что требуется сделать. AI должен внести правильные изменения в указанные файлы. 3️⃣Задачи автодополнения (tab-autocompletion) Самый "легкий" для AI случай (но внезапно не самый простой!): разработчик начал писать строку или функцию, а AI должен корректно её завершить в контексте всего проекта. В чем же фишки LiveSWEBench? 1. Реальные задачи из реальных проектов: тесты основаны на парах "проблема-решение" из крупных open-source репозиториев c GitHub, включая freeCodeCamp, PyTorch, Wagtail (Django), JUnit5 и JSON for Modern C++. Обратите внимание на мултиязычность! (в отличие от SWE-bench) 2. Защита от "загрязнения": используются только относительно свежие PR (за последний год), которые с меньшей вероятностью попали в обучающие данные AI. Бенчмарк регулярно обновляется. 3. Попытка объективной оценки: решения проверяются запуском реальных тестов из проекта. И что в итоге? В полностью агентных задачах лидируют SWE-Agent, Github Copilot (VSCode), Windsurf - почти все на базе нашей любимой Claude 3.7 Sonnet. В задачах целевых правок многие инструменты показывают заметный прирост производительности (особенно Aider). Задачи автодополнения оказались неожиданно сложными: AI часто находят правильное решение, но затем добавляют лишний код, который ломает тесты. Тут вообще интересно, у них autocompletion Копайлота (44.83) показал лучшие результаты, чем Курсор (41.38) - вот так неждан. Немного критики от меня Несмотря на все усилия по борьбе с "загрязнением" данных (использование недавних PR (до года) и регулярное обновление), фундаментальная проблема остаётся: оценка проводится на популярных публичных репозиториях, которые с высокой вероятностью уже были включены в обучающие выборки современных LLM. Даже если конкретные PR не попали в тренировочные данные, модели могли "видеть" структуру проектов, стиль кода и общую архитектуру этих репозиториев. Это даёт им неявное преимущество. Действительно показательным был бы бенчмарк на основе больших, но закрытых кодовых баз — внутренних проектов компаний, которые гарантированно не попали в обучающие данные. Такой подход позволил бы более объективно оценить способность AI-ассистентов разбираться в незнакомом коде и решать реальные, "свежие" для них задачи, с которыми сталкиваются разработчики в корпоративной среде. Но сделать такое сложно по понятным причинам. Авторы обещают, что бенчмарк будет развиваться. Надеюсь, появится возможность фильтровать результаты для конкретного ЯП (создал issue). Ну и, ждем результатов по Cline и по Roo-Code. Подробнее про бенчмарк тут: https://liveswebench.ai/details Код бенчмарка тут: https://github.com/LiveBench/liveswebench Что думаете про результаты и про сам бенчмарк? На сколько бьется с вашим опытом? #бенчмарк#LiveSWEBench