Post content
ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models https://arxiv.org/abs/2512.07843 https://arxiviq.substack.com/p/threadweaver-adaptive-threading-for Авторы представили ThreadWeaver — фреймворк, позволяющий LLM динамически разбивать последовательную цепочку рассуждений (CoT) на параллельные потоки Обучив модель выдавать специальные управляющие токены (<Parallel>, <Thread>) и используя trie-based механизм внимания, система реализует паттерн выполнения «fork-join» Для оптимизации используется модифицированный алгоритм P-GRPO, который балансирует между правильностью ответа и сокращением длины критического пути Время инференса в сложных задачах на рассуждение (reasoning tasks) обычно растёт линейно с длиной цепочки (O(N)), создавая узкое место для масштабирования System 2 ThreadWeaver показывает, что можно сохранить SOTA-качество (на уровне последовательного Qwen3-8B) и при этом получить значительное ускорение по времени (до 1.53x) Что важно, это работает на стандартных движках (например, vLLM) без необходимости писать кастомные CUDA-ядра или хитро управлять KV-кэшем