Post content
Planned Diffusion: гибридный подход к преодолению барьера между скоростью и качеством в LLM https://arxiv.org/abs/2510.18087 https://arxiviq.substack.com/p/planned-diffusion В статье представлен "Planned Diffusion" — новый гибридный фреймворк для генерации текста, который объединяет сильные стороны авторегрессионных (AR) и диффузионных моделей в единой архитектуре Метод работает в два этапа: сначала он использует AR-процесс для последовательной генерации высокоуровневого «плана», который определяет семантическую структуру и разбивает вывод на условно независимые фрагменты текста Затем он выполняет этот план, генерируя содержимое для всех определённых фрагментов одновременно с помощью параллельного дискретного диффузионного процесса Подход напрямую бросает вызов фундаментальному компромиссу между скоростью генерации и качеством вывода в больших языковых моделях Рассматривая генерацию текста как задачу динамического параллельного планирования, Planned Diffusion значительно сокращает последовательный критический путь, достигая ускорения от 1.27x до 1.81x по сравнению со стандартной AR-генерацией на бенчмарке AlpacaEval https://github.com/tatsu-lab/alpaca_eval при минимальном снижении качества Это расширяет границу Парето в координатах «скорость-качество» и предлагает практичный и масштабируемый путь к более быстрым и эффективным LLM без накладных расходов, связанных с системами из нескольких моделей, такими как спекулятивное декодирование https://arxiv.org/abs/2211.17192 В мире больших языковых моделей (LLM) существует фундаментальное противоречие между скоростью инференса и качеством вывода Авторегрессионные (AR) модели, генерирующие текст токен за токеном, долгое время задавали стандарт качества и связности Однако их последовательная природа создаёт неотъемлемый барьер для быстродействия С другой стороны, диффузионные модели спроектированы для параллелизма, но им часто требуется множество итеративных шагов, чтобы достичь качества AR-аналогов, что сводит на нет их преимущество в скорости Это ставит исследователей и практиков перед сложным выбором Статья "Planned Diffusion" предлагает новый фреймворк, который переосмысливает эту проблему Авторы утверждают, что структура зависимостей в тексте зависит от контекста Например, ответ, содержащий маркированный список, имеет семантически независимые части, которые можно генерировать одновременно Используя это наблюдение, они разработали гибридную архитектуру, которая элегантно сочетает в себе сильные стороны обеих парадигм Сначала планирование, затем параллельная диффузия Planned Diffusion работает путём разделения генерации текста на два отдельных этапа, выполняемых одной унифицированной моделью Авторегрессионное планирование: Процесс начинается с последовательного, авторегрессионного этапа, на котором модель генерирует высокоуровневый план выполнения Этот план — не конечный текст, а набор структурных управляющих тегов, которые очерчивают структуру ответа Такой план разбивает задачу на условно независимые подзадачи Параллельная диффузия: Затем план преобразуется в каркас из маск-токенов, который модель «заполняет» одновременно с помощью дискретного диффузионного процесса Каждый запланированный фрагмент текста параллельно очищается от шума (denoising), что резко сокращает количество последовательных прогонов модели, необходимых для генерации полного ответа