Содержимое
Вот перевод этого фрагмента: ⸻ GPT-5.5 — лидер по качеству. Он проходит больше всего тестов, чаще всего совпадает с человеческими патчами и примерно в три раза чаще проходит код-ревью по сравнению с Opus. Opus — лидер по «размеру изменений» (footprint). Его патчи меньше и считаются менее рискованными по модели оценки footprint в Stet. Но маленький патч хорош только тогда, когда он завершён. Повторяющийся провал Opus — это прохождение видимых тестов при пропуске сопутствующих изменений, которые были в человеческом PR. GPT-5.5 также лидер по эффективности (по токенам и времени выполнения). Он использовал меньше входных токенов, меньше выходных токенов и меньше суммарного времени работы агента, чем оба конкурента. GPT-5.4 всё ещё лидер по стоимости из-за более низкой цены, но это преимущество не компенсировало разрыв в «чистых проходах» (clean-pass) в этих прогонах. Разделение по репозиториям — вот где становится особенно интересно: