Post content
Ещё в сторону дифференцируемого retrieval, но теперь про память и длинный контекст Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models https://arxiv.org/abs/2511.23319 https://github.com/ant-research/long-context-modeling https://arxiviq.substack.com/p/every-token-counts-generalizing-16m Представили HSA-UltraLong — 8B MoE-модель (Mixture-of-Experts), способную переваривать контекст длиной до 16.000.000 токенов Главное — механизм Hierarchical Sparse Attention (HSA), который рассматривает прошлые блоки контекста как "экспертов", доступных для извлечения Всё это работает в связке с хитрым curriculum learning, балансирующим локальное скользящее окно и глобальный разреженный поиск ПОЧЕМУ это важно: Стандартные трансформеры упираются в квадратичную сложность O(N^2), а линейные альтернативы вроде Mamba (https://t.me/gonzo_ML/2148) часто слишком агрессивно сжимают состояние, теряя детали далёких токенов HSA-UltraLong показывает, что если сделать процесс извлечения контекста дифференцируемым и обучаемым end-to-end, можно получить память с произвольным доступом (random access) на миллионы токенов без квадратичной стоимости полного внимания или деградации точности, свойственной эвристическим методам Подробнее: https://t.me/gonzo_ML_podcasts/1574