Machinelearning (@ai_machinelearning_big_data)

Опубликован 16 дек.

⚡️Xiaomi MiMo-V2-Flash: MoE с 309 млрд. общих и 15 активных параметров. Модель интересна нестандартным подходом к механизму внимания. Xiaomi использовали гибридную схему, чередующую глобальное внимание и внимание скользящего окна в пропорции 1 к 5. Само скользящее окно всего 128 токенов, но несмотря на такую компактность, модель получила контекстное окно в 256 тыс. токенов. 🟡Модель создавалась с фокусом на эффективность инференса. MiMo-V2-Flash выдает 150 токенов в секунду по API и добиться таких показателей удалось благодаря Multi-Token Prediction . В отличие от стандартных методов, где декодирование упирается в пропускную способность памяти из-за низкой арифметической интенсивности, MTP генерирует несколько черновых токенов за раз. Основная модель затем валидирует их параллельно. Блок MTP в MiMo-V2-Flash спроектирован легковесным: он использует плотную сеть прямого распространения вместо MoE и опирается на все то же скользящее окно внимания. Измерения показали, что в этом есть смысл: при использовании 3-слойного MTP длина принятой последовательности составляет от 2,8 до 3,6 токена, что дает чистое ускорение инференса в 2,0–2,6 раза без увеличения операций ввода-вывода KV-кэша. 🟡На пост-трейне использовали парадигму Multi-Teacher Online Policy Distillation. Ее суть в том, что модель-студент сэмплирует варианты ответов из собственной политики, а награды ей выдают сразу несколько моделей-учителей. Это дало возможность масштабировать RL с ощутимой экономией: для пиковой производительности учителей требуется менее 1/50 вычислительных ресурсов по сравнению с традиционными пайплайнами SFT+RL. 🟡Боевые метрики на бенчмарках выглядят красиво. На SWE-bench Verified модель набрала 73,4%. Это первое место среди всех открытых моделей и очень близко к показателям GPT-5-High. В мультиязычном тесте SWE-bench Multilingual решила 71,7% задач. В математическом AIME 2025 и научном бенчмарке GPQA-Diamond MiMo-V2-Flash входит в топ-2 среди open-source решений. Для задач поиска на BrowseComp результат составил 45,4, а при использовании управления контекстом вырос до 58,3. В прямом сравнении ризонинг-задачах MiMo-V2-Flash держит паритет с K2 Thinking и DeepSeek V3.2 Thinking, но превосходит K2 Thinking на длинных контекстах. 🔜 Есть бесплатный доступ по API до конца года (потом - $0,1 за млн. входных токенов и $0,3 за млн. выходных). 📌Лицензирование: MIT License. 🟡Статья 🟡Техотчет 🟡Demo 🟡Модель @ai_machinelearning_big_data #AI#ML#LLM#MiMOv2Flash#Xiaomi

29,700 views

Hashtags

#ai #ml #llm #mimov2flash #xiaomi

Последние посты