Садржај поста
Harness engineering: leveraging Codex in an agent-first world Команда OpenAI описала пятимесячный эксперимент: миллион строк кода продукта написан агентами Codex (GPT-5), без единой строки человеческого кода. Это работающий продукт с реальными пользователями. Семь инженеров выпускают в среднем 3,5 PR на человека в день, при этом их роль сместилась с написания кода на проектирование среды для эффективной работы агентов. Разобраны архитектурные решения, управление контекстом, обратная связь и механизмы поддержания качества. Опыт радикально переосмысливает инженерную работу. Главное: - Продукт создан за пять месяцев, весь код (~миллион строк) написан Codex (GPT-5). Команда из 3→7 инженеров не написала ни строки вручную - Скорость: ×10 относительно ручной разработки. 3,5 PR на инженера в день - Продукт используется сотнями внутренних пользователей OpenAI, проходит альфа с внешними участниками - Роль инженеров: проектирование среды — инструменты, абстракции, системы обратной связи, архитектурные ограничения для агентов - Главный дефицитный ресурс — человеческое время и внимание. Архитектура выстроена вокруг минимизации человеческого участия - Codex самостоятельно открывает PR, ревьюит код (включая взаимное ревью между агентами), отвечает на комментарии, фиксит баги, мержит. Человеческое ревью необязательно - Агенты работают автономно до шести часов над одной задачей, часто пока команда спит - Для автономного тестирования UI — доступ к Chrome DevTools Protocol: скриншоты, анализ DOM, воспроизведение багов, верификация фиксов - Логи, метрики и трейсы доступны агентам через эфемерные стеки (LogQL, PromQL). Codex выполняет задачи вида «стартап сервиса < 800 мс» - Управление контекстом критично. Вместо огромного мануала — короткая «карта» (AGENTS.md, ~100 строк) с указателями на структурированную базу знаний в docs/ - Вся информация должна быть в репозитории — иначе для агента её не существует. Slack, Google Docs, устные договорённости переносятся в версионируемые артефакты (markdown, схемы, execution plans) - Execution plans — артефакты первого класса, версионируются с кодом. Активные, завершённые планы и техдолг хранятся в репо - Агенты эффективны в средах с жёсткими границами и предсказуемой структурой. Строгая слоистая модель с фиксированными зависимостями (Types → Config → Repo → Service → Runtime → UI) - Архитектурные ограничения проверяются кастомными линтерами и структурными тестами. Линтеры тоже написаны Codex - Сообщения об ошибках линтеров содержат инструкции по исправлению — инжектируются в контекст агента - Предпочтение «скучным» технологиям: лучше представлены в обучающей выборке, композируемы, предсказуемы. Иногда дешевле переимплементировать, чем работать с непрозрачной библиотекой - Баланс: жёсткие инварианты на границах, свобода реализации внутри. Codex сам выбрал Zod для валидации без указания команды - Агенты копируют существующие паттерны — включая плохие. Накапливается «AI slop». Изначально 20% времени (пятницы) уходило на ручную чистку - Решение — «золотые принципы» + автоматическая сборка мусора. Codex-агенты регулярно сканируют код, находят отклонения, открывают рефакторинг-PR. Большинство автомержится - Человеческий вкус кодифицируется один раз — затем применяется непрерывно ко всему коду через автопроверки и рефакторинг-агентов - Минимальные блокирующие ворота при мерже. Исправления дёшевы, ожидание — дорого. В низкопоточной среде безответственно, здесь — оправданный трейдофф - Достигнут порог автономности: Codex реализует фичу от начала до конца, эскалируя к человеку только для принятия решений - Открытый вопрос: как архитектурная когерентность будет эволюционировать в полностью агент-генерируемой системе на горизонте лет - Главный сдвиг: дисциплина теперь не в коде, а в scaffolding — инструментах, абстракциях, feedback loops для когерентности кодовой базы - Центральный вызов — проектирование сред, обратной связи и контрольных механизмов, позволяющих агентам создавать надёжное ПО в масштабе