Post #509

@MachineLearningResearch

AML

Views459Post view count

PostedNov 3011/30/2025, 09:12 AM

Post content

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? https://arxiv.org/abs/2504.13837, https://openreview.net/forum?id=4OsgYD7em5 https://limit-of-rlvr.github.io https://arxiviq.substack.com/p/neurips-2025-does-reinforcement-learning В финальной работе (Best Paper Runner-Up) на NeurIPS 2025, авторы систематически исследовали границы возможностей рассуждающих моделей (reasoning models), обученных с помощью RLVR (Reinforcement Learning with Verifiable Rewards) Используя несмещённую метрику pass@k на задачах по математике, кодингу и визуальному мышлению, они сравнили базовые модели с их RL-версиями, чтобы выяснить: генерирует ли RLVR принципиально новые паттерны мышления или лишь усиливает существующие Результаты разрушают популярный миф о том, что RLVR позволяет моделям автономно открывать "сверхчеловеческие" стратегии подобно AlphaGo Исследование показывает: RLVR радикально улучшает *эффективность сэмплирования* (правильные ответы выпадают чаще), но не расширяет фундаментальные границы возможностей модели На больших значениях k базовые модели часто решают *больше* уникальных задач, чем их RL-версии, что говорит об ограниченности текущих методов RL прайорами предобучения