Содержимое
Вот перевод этого фрагмента: ⸻ GPT-5.5 — это не просто GPT-5.4 с более высоким процентом прохождения тестов. У него меняются сами типы ошибок. GPT-5.4 часто видит правильный общий подход, но ошибается в реализации. Например, на Zod у него было 18 оценок «эквивалентно» (как и у GPT-5.5), но только 9 успешных прохождений тестов. Оценщик эквивалентности распознал правильное поведение, но исполняемая реализация всё равно падала. GPT-5.5 закрывает этот разрыв. Он сохраняет общее интеграционное поведение, но при этом выдаёт меньше «сломанных» патчей. Три примера из Zod хорошо это показывают. Первый — генератор schema → TypeScript. Задача требовала рекурсивного обхода (visitor) схем Zod. Opus и GPT-5.5 оба правильно распознали это как задачу реализации и сделали visitor. GPT-5.4 вместо этого создал файлы с инструкциями для репозитория, а не саму функциональность. Это не тонкая алгоритмическая ошибка — он просто неправильно классифицировал задачу. Второй — исправление рекурсивного парсера. Обе модели GPT использовали идею отслеживания количества посещений. GPT-5.4 добавил sentinel inProgress и логику сброса. GPT-5.5 сохранил поведение «счётчик + кэширование ошибок» и убрал лишнее состояние. Та же общая идея, но меньше лишних частей — и тесты проходят. Третий — валидация CIDR. У GPT-5.4 и GPT-5.5 были похожие алгоритмы: разделение по /, проверка адреса и префикса. Но GPT-5.5 обновил зеркала Deno, а GPT-5.4 — нет. Это не вопрос сложного рассуждения — это вопрос аккуратности работы с репозиторием. В graphql-go-tools различия носят более «операционный» характер. PR #1232 требовал устранить дублирующиеся fetch-запросы и одновременно переписать зависимости, которые ссылались на удалённые дубликаты. Патч может выглядеть правдоподобно, но при этом оставить зависимости в неконсистентном состоянии. GPT-5.5 оказался единственной моделью, которая прошла тесты, совпала с человеческим решением и прошла ревью. Общий паттерн такой: GPT-5.5 лучше справляется с «скучной» интеграционной работой, которая превращает локально умное решение в полноценное изменение, готовое к продакшену.