Post #518

@MachineLearningResearch

AML

Views85Post view count

PostedDec 312/03/2025, 09:05 PM

Post content

Closing the Loop: Differentiable Retrieval via Continuous Latent Reasoning https://arxiv.org/abs/2511.18659 https://github.com/apple/ml-clara https://arxiviq.substack.com/p/clara-bridging-retrieval-and-generation Представили CLaRa — унифицированный фреймворк для RAG, который сжимает документы в непрерывные "токены памяти" (memory tokens) и оптимизирует поиск и генерацию end-to-end Используя технику Straight-Through Estimator (STE), авторы пробрасывают градиенты от функции потерь языковой модели обратно в механизм поиска Это заставляет ретривер выбирать документы не просто по семантической близости, а по их реальной полезности для генерации ответа ПОЧЕМУ это важно: В стандартном RAG существует проблема "разрыва градиента": ретривер ищет по косинусному сходству, а LLM обучается предсказывать следующий токен Эти цели часто не совпадают, и модель получает семантически близкие, но фактически бесполезные куски текста CLaRa делает шаг поиска дифференцируемым, объединяя всё в одном латентном пространстве Это даёт заметный прирост качества на бенчмарках (NQ, HotpotQA) и позволяет сжимать контекст до 16 раз