TGTGInsighttelegram intelligenceLIVE / telegram public index
← python-telegram-bot

TGINSIGHT SIMILAR POSTS

Find similar content

Source channel @pythontelegrambotchannel · Post #89 · Oct 7

The v13 release is not just a release either, it is also our official announcement of participation in the annual #hacktoberfest. 💻🥨 We know that we're a few days late to the party, but v13 had to get ready before. 😉 This year, the fest is opt-in for projects and we definitely want to opt into taking part in this great event! If you ever thought about starting coding or giving back to your favourite open source repositories, now is the time! Head over to the hacktoberfest website to learn more about it. We already prepared some issues on our repositories and aim towards opening more issues for starters, but feel free to begin a hunt for improvements and fixes by yourself!

Results

1 similar post found

Search: #ssm

当前筛选 #ssm清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8750 · 10/13/2025, 03:05 PM

⚡️Mamba-3 тихо и без объявления вышла на ICLR - и это может стать началом конца эпохи Transformers. Новая архитектура Mamba-3 делает модели быстрее, стабильнее и эффективнее при работе с длинными контекстами. Главная идея - не в слоях внимания, а в state-space моделях, где модель хранит и обновляет внутреннее состояние во времени. 📘Краткие эускурс: - Mamba-1 ввела непрерывную динамику и выборочное обновление памяти - помнила эффективно без высокой цены attention. - Mamba-2 показала, что обновления состояния и attention - это две стороны одной математики, что ускорило вычисления на GPU. - Mamba-3 довела концепцию до зрелости: теперь внутренняя память развивается плавнее и устойчивее за счёт перехода от простого шага Эйлера к трапецеидальному интегрированию. Вместо простого шага Эйлера, как в Mamba-2, Mamba-3 аппроксимирует интеграл обновления состояния не только по правому концу интервала, но усреднением между началом и концом, с коэффициентом λ, зависящим от данных. Это даёт более точное приближение (второго порядка) и делает динамику состояния более выразительной. 🧠Что изменилось под капотом: - Память стала «ритмичной»: теперь модель может хранить повторяющиеся и периодические паттерны (например, структуры языка или музыки). - Новый multi-input-multi-output дизайн позволяет обрабатывать несколько потоков параллельно — идеально для современных GPU. ⚙️Что это даёт на практике: - Эффективная работа с длинными последовательностями: документы, геномы, временные ряды. - Линейное время выполнения и стабильная задержка делают её идеальной для реального времени: чат-ботов, перевода, речи. - Энергоэффективность и масштабируемость открывают путь к on-device AI, где большие модели работают локально, без облака. Mamba-3 - это не просто ускоренная альтернатива Transformers. Это новая архитектура, которая объединяет глубокое понимание контекста, скорость и устойчивость, от серверных систем до умных устройств. 🟢Подробности: https://openreview.net/pdf?id=HwCvaJOiCj @ai_machinelearning_big_data #ssm#mamba3#llm,#architecture#ai