Post content
Alibaba протестировала 18 агентов для программирования — 100 настоящих кодовых баз, каждая — 233 дня разработки Задача — не просто написать код, а поддерживать его в течение 8 месяцев И тут всё развалилось. Написать код, который один раз проходит тесты — можно Поддерживать код и не ломать его при каждом изменении — почти никто из моделей не смог Для этого Alibaba сделала новый бенчмарк — SWE-CI Он проверяет не "почини баг один раз", а как код переживает эволюцию проекта Каждая задача — это 71 последовательный коммит реального развития кода Результаты: - 75% моделей ломают ранее работающий код во время поддержки - только Claude Opus 4.5 и 4.6 держатся выше 50 % zero-regression rate - остальные модели накапливают технический долг на каждой итерации Вывод: Почти все модели умеют писать код Почти ни одна не умеет его поддерживать Как живые программисты