TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват34,600Просмотры последних постов
Последние посты

Последние посты

Тег: #mamba · 1 постов

当前筛选 #mamba清除筛选

Опубликован 9 окт.

AI21 представила Jamba 3B - компактную модель, которая обошла Qwen 3 4B и IBM Granite 4 Micro по качеству рассуждений. Более высокая эффективность, в сравнении с AI21 - 2–5× улучшение в производительности по сравнению с конкурентами за счёт меньшего KV-кэша и гибридной архитектуры. Секрет в архитектуре: 🔹 сочетание Transformer attention и Mamba state-space слоёв. 🔹 Mamba-часть эффективно обрабатывает длинные последовательности без тяжёлых attention-кэшей, 🔹 а Transformer-слои сохраняют способность к сложным рассуждениям. Результат, модель кушает меньше памяти, выдает высокую скорость и плавно работает даже на ноутбуках, GPU и мобильных устройствах. 📏 Контекст: до 256K токенов. ⚡ Скорость: около 40 токенов/сек даже на длинных контекстах, тогда как другие модели резко замедляются. На графике “интеллект против скорости” Jamba 3B опережает Gemma 3 4B, Llama 3.2 3B и Granite 4.0 Micro, демонстрируя высший интеллект и более быструю генерацию. 🟢Подробнее: huggingface.co/ai21labs/AI21-Jamba-Reasoning-3B @ai_machinelearning_big_data #AI#LLM#Jamba3B#AI21#Mamba#Transformer#DeepLearning

34,600 views