Post #423

@MachineLearningResearch

AML

Views331Post view count

PostedOct 2810/28/2025, 02:05 PM

Post content

Markovian Thinker открывает путь к линейным по времени рассуждениям для LLM https://arxiv.org/abs/2510.06557 https://arxiviq.substack.com/p/the-markovian-thinker https://github.com/McGill-NLP/the-markovian-thinker https://huggingface.co/McGill-NLP/the-markovian-thinker Статья представляет «марковское мышление» (Markovian Thinking) — новую парадигму для обучения LLM, способных к рассуждениям, с помощью обучения с подкреплением (RL) Эта парадигма реализуется через среду «Delethink», которая преобразует процесс рассуждений в последовательность «чанков» (кусков) фиксированного размера На границе каждого чанка среда сбрасывает контекст, сохраняя лишь короткий, выученный моделью текстовый фрагмент — «марковское состояние» — для продолжения мыслительного процесса RL-политика обучается записывать в этот фрагмент достаточно информации, чтобы обеспечить плавное продолжение рассуждений Такой подход отделяет общую длину рассуждений от активного размера контекста модели, коренным образом меняя масштабирование вычислений Он превращает непомерные квадратичные вычислительные затраты (O(N²)) и линейный рост памяти стандартного RL-подхода с длинными цепочками рассуждений (Long-Chain-of-Thought, LongCoT) в линейные вычисления и константную память относительно длины рассуждений Это делает экономически целесообразным обучение LLM на очень длинных слепках рассуждений Более того, модели, обученные с помощью Delethink, демонстрируют лучшее масштабирование во время инференса, продолжая улучшаться далеко за пределами своего тренировочного бюджета, в то время как производительность моделей LongCoT выходит на плато. Работа также показывает, что современные LLM уже обладают скрытыми марковскими способностями в режиме zero-shot, что является отличной отправной точкой для этого высокоэффективного режима обучения В статье показано, что мы можем эффективно обучать стандартные трансформеры «мыслить порциями», достигая линейного масштабирования по времени и высокой производительности Предлагая ясный путь для выхода из «квадратичной тюрьмы» self-attention, «The Markovian Thinker» закладывает практическую основу для будущего, в котором модели смогут рассуждать на миллионах токенов, решая задачи такого масштаба и сложности, которые мы сегодня можем только вообразить