Содержимое
🧨Kimi представили новую модель - Kimi-Linear-48B-A3B-Base Команда Moonshot показала KDA - механизм, который соединяет идеи Gated DeltaNet и MLA-компрессии в одну архитектуру. Звучит сложно, но суть очень практичная: модель получает долгую память без раздувания контекста и лишних вычислений. - KDA (Kimi Delta Attention: основной быстрый attention, улучшает эффективность и reasoning = MLA (Multi-Head Linear Attention) - помогает точности и стабильности. Модель не пересчитывает всё внимание каждый токен, а фокусируется на изменениях, что снижает затраты. Соотношение слоёв: ~3 части KDA : 1 часть ML. Модель в основном работает на «дельта-внимании» (KDA), а MLA помогает сохранять качество: - модель сама выбирает, что забывать, а что держать - это даетустойчивость при большом контексте выше - меньше распада длинных зависимостей Kimi-Linear хороша тем, что даёт почти уровень больших LLM на длинных контекстах, но при этом заметно экономит память и работает быстрее за счёт линейной архитектуры. Что улучшили: - требует до 75% меньше памяти на KV-кэш - до 6.3× быстрее декодирование на длинных контекстах Как устроена: - гибридный подход: Kimi Delta Attention + MLA - модель хорошо оптимизирована под длиннный контекст и высокую пропускную способность По бенчмаркам модель обгоняет и MLA, и GDN-H, включая задачи с длинным контекстом. В задачах на рассуждения и длинную RL-генерацию Kimi-Linear показывает заметно лучшие результаты, чем MLA. Архитектура модели пример того, как линейные attention-архитектуры выходят на уровень, где они конкурируют с классическими решениями не только по скорости, но и по качеству. 🟠Github: github.com/MoonshotAI/Kimi-Linear 🟠Hf: https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct @ai_machinelearning_big_data #Kimi#llm