TGTGInsighttelegram intelligenceLIVE / telegram public index
← Mathshub: интенсив по математике и Python (aug '22)

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonmathaug22 · Post #7 · 18 авг.

Добрый день, дорогой студент интенсива! 🎲 Это дружеское напоминание о втором занятии с Анной Чувилиной “Решение задач по программированию на блок-схемах” сегодня 18 августа в 19:00 (мск). ❗️ ВНИМАНИЕ ССЫЛКА: встреча пройдет по ссылке на трансляцию Ждем в 19:00 (мск)! 📝По просьбе преподавателя Анны просим подготовить к занятию бумагу с ручкой или редактор на ноутбуке. Не забудьте подписаться на: — Наш Youtube-канал — Канал в Discord#python-и-математика-интенсив, там будут обсуждения и объявления Если есть вопросы, писать в Discord/Telegram или на [email protected]

Hashtags

Резултати

Пронајдени 2 слични објави

Пребарај: #mamba3

当前筛选 #mamba3清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #9701 · 20.03.2026 г., 12:51

🌟Mamba3 Mamba2 делала ставку на быстрое обучение. Ради этого механизм рекуррентных обновлений упрощали: матрицу переходов состояний свели к скаляру, умноженному на единичную матрицу. Обучение ускорилось, но при декодировании GPU большую часть времени не считает, а гоняет данные между уровнями памяти. Архитектура оказалась с нюансом - вычислительные ядра простаивают. С тех пор ландшафт изменился. RL с верифицируемыми наградами для кода и математики, агентные пайплайны - все это генерирует прорву токенов на инференсе. Команда Mamba3 задалась вопросом: как выглядела бы SSM-архитектура, если сделать ее с приоритетом на инференс, а не на обучение? Так родились 3 главных изменения в ядре Mamba. 🟡Новая схема дискретизации. SSM в базе - это обыкновенное дифференциальное уравнение, которое нужно перевести в дискретную рекуррентную формулу. Mamba1 и Mamba2 использовали комбинацию двух методов (ZOH и Эйлера), подобранную эмпирически. В Mamba3 реализовали экспоненциально-трапецеидальный метод: вместо одной точки для аппроксимации интеграла берутся обе границы интервала с обучаемым коэффициентом смешивания. В результате рекуррентная формула неявно применяет свёртку к входу скрытого состояния, что делает динамику выразительнее без дополнительных компонентов. 🟡Комплекснозначная SSM. Ранние модели семейства S4 работали с комплексными числами, но Mamba1 от них отказалась. Из-за этого модель не справляется даже с простейшими задачами отслеживания состояний (например, определением четности последовательности). Решение нашли во вращении в двумерном пространстве: вместо комплексных вычислений авторы разложили переход на масштабирование и поворот, а затем применили фишку из RoPE - встроили вращения в матрицы через кумулятивную сумму углов. Переписывать ядра для поддержки комплексной арифметики не пришлось. Модель решает задачи на чётность и другие бенчмарки, недоступные предыдущим версиям. 🟡Переход от SISO к MIMO. В стандартной SSM каждый хэд содержит набор независимых систем (один вход - один выход). При декодировании арифметическая интенсивность составляет около 2,5 операций на байт при пороге вычислительной загруженности на H100 в районе 300. Mamba3 расширяет матрицы, превращая внешние произведения в матричные умножения. Арифметическая интенсивность растет пропорционально. При этом размер скрытого состояния не увеличивается, а значит, латентность декодирования почти не меняется. Обучение, конечно, дорожает, но это сознательный компромисс. Еще из архитектуры убрали короткую каузальную свёртку, присутствовавшую с первой Mamba - новая рекуррентная формула и смещения выполняют ту же функцию. Добавили нормализацию BCNorm по аналогии с QKNorm в трансформерах, перешли на чередование SSM- и MLP-слоев. Ядра написаны на Triton (prefill SISO), TileLang (prefill MIMO) и CuTe DSL (decode). 🟡Тесты Mamba-3 SISO при 1,5B параметров показывает лучшую суммарную латентность prefill + decode на всех длинах последовательностей по сравнению с Mamba2, Gated DeltaNet и Llama-3.2-1B под vLLM на одном H100. MIMO-вариант сопоставим по скорости с Mamba2, но заметно точнее. При анализе Парето-фронта Mamba-3 показывает тот же уровень качества при вдвое меньшем состоянии. @ai_machinelearning_big_data #AI#ML#LLM#Mamba3#TogetherAI

Machinelearning

@ai_machinelearning_big_data · Post #8750 · 13.10.2025 г., 15:05

⚡️Mamba-3 тихо и без объявления вышла на ICLR - и это может стать началом конца эпохи Transformers. Новая архитектура Mamba-3 делает модели быстрее, стабильнее и эффективнее при работе с длинными контекстами. Главная идея - не в слоях внимания, а в state-space моделях, где модель хранит и обновляет внутреннее состояние во времени. 📘Краткие эускурс: - Mamba-1 ввела непрерывную динамику и выборочное обновление памяти - помнила эффективно без высокой цены attention. - Mamba-2 показала, что обновления состояния и attention - это две стороны одной математики, что ускорило вычисления на GPU. - Mamba-3 довела концепцию до зрелости: теперь внутренняя память развивается плавнее и устойчивее за счёт перехода от простого шага Эйлера к трапецеидальному интегрированию. Вместо простого шага Эйлера, как в Mamba-2, Mamba-3 аппроксимирует интеграл обновления состояния не только по правому концу интервала, но усреднением между началом и концом, с коэффициентом λ, зависящим от данных. Это даёт более точное приближение (второго порядка) и делает динамику состояния более выразительной. 🧠Что изменилось под капотом: - Память стала «ритмичной»: теперь модель может хранить повторяющиеся и периодические паттерны (например, структуры языка или музыки). - Новый multi-input-multi-output дизайн позволяет обрабатывать несколько потоков параллельно — идеально для современных GPU. ⚙️Что это даёт на практике: - Эффективная работа с длинными последовательностями: документы, геномы, временные ряды. - Линейное время выполнения и стабильная задержка делают её идеальной для реального времени: чат-ботов, перевода, речи. - Энергоэффективность и масштабируемость открывают путь к on-device AI, где большие модели работают локально, без облака. Mamba-3 - это не просто ускоренная альтернатива Transformers. Это новая архитектура, которая объединяет глубокое понимание контекста, скорость и устойчивость, от серверных систем до умных устройств. 🟢Подробности: https://openreview.net/pdf?id=HwCvaJOiCj @ai_machinelearning_big_data #ssm#mamba3#llm,#architecture#ai