Post #147

@AIexTime

AI[ex]Time

Views7,690Post view count

PostedSep 1009/10/2025, 08:59 AM

Post content

Рефлексия на тему построения AI агентов от команды Manus, где собран ряд практических советов, как строить контекст, обрабатывать наблюдения из среды, работать с тулами. Любопытно почитать, к какому дизайну пришли авторы после многократных итераций и фидбек лупов. Вся заметка написана через призму использования in-context learning (ICL), то есть упор сделан не на обучении, а использовании мощных уже существующих моделей, где основная задача — правильно собрать контекст: написать хорошие промпты, тулы, решить, какую информацию мы будем помещать туда, а какую нет и тд. Один из первых пунктов звучит так: If I had to choose just one metric, I'd argue that the KV-cache hit rate is the single most important metric for a production-stage AI agent…Keep your prompt prefix stable…Make your context append-only. За этим стоит понятное объяснение: закэшированные токены ускоряют инференс, снижая time-to-first-token (TTFT), у фронтир моделей почти всегда цена за токены в кэше сильно меньше, что очевидно очень важно для коммерческого продукта (пример с grok code выше). Но, проецируя описанные проблемы еще и на сценарий обучения моделей, я бы добавил один важный момент. Если у нас нарушается линейность траектории и в разных моментах контекст собирается по-разному (такое может быть часто, если мы начнем смотреть в сторону суммаризации предыдущей истории для экономии длины контекста), то мы столкнемся с проблемой во время обучения, а именно не сможем использовать всю multi-turn траекторию, чтобы обучаться на ней за раз. Вместо этого придется дробить ее на отдельные семплы, маскировать префикс и обучаться только на последнем действии, что катастрофически снижает sample efficiency тренировки. Так что нужно помнить, что должны быть действительно весомые причины, чтобы отойти от концепта append-only context. По этой же причине, кстати, неприятно тюнить гибридные модели qwen3, у которых манипуляции с <think> тегами происходят только на последнем шаге траектории.