TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват65,900Просмотры последних постов
Последние посты

Последние посты

Тег: #zyphra · 2 постов

当前筛选 #zyphra清除筛选

Опубликован 9 февр.

📌OVQA: прощай, KV-cache offloading. В Zyphra придумали как усидеть на двух стульях сразу, когда хочется резиновый контекст, но под рукой нет тонны памяти. То. что они предложили, называется Online Vector-Quantized Attention - это модификация векторного квантования, которая учит словарь думать на лету. В классическом VQ ключи заменяются ближайшими центроидами из статичного словаря. Это бустит вычисления, но создает проблему: словарь обучен на одних данных, а во время генерации модель видит совсем другое распределение ключей. Ошибка квантования растет, внимание теряет точность и как итог: VQ начинает плавать. Так вот, модификация в том, чтобы отказаться от статического словаря в пользу адаптивного к текущей последовательности: каждый новый токен обновляет только один центроид - тот, к которому ближе всего. Это разреженное обновление работает как защита от катастрофического забывания: старая информация не вымывается новой волной токенов, а аккуратно перезаписывается по мере необходимости. Плюс есть хард-лимит на размер состояния, после достижения которого объем памяти перестает расти, а вычисления становятся строго линейными. 🟡Результаты тестовых экспериментов 🟢Модель, обученная на 4К токенах, уверенно справлялась с контекстом до 64К без деградации качества; 🟢На внутриконтекстном поиске OVQ почти не отставала от полноценного самовнимания, потребляя при этом в 4 раза меньше памяти; 🟢На In-Context Learning VQ провалился, а OVQ вышла на уровень классического внимания, используя всего ~4К центроидов; 🟢Сравнения с линейными альтернативами (Mamba2 и дельта-сети) тоже в пользу OVQ: она стабильнее держит долгий контекст без просадок точности; 🟠В задачах Positional ICR OVQA работает чуть хуже, чем классическое внимание но все равно достойно. Очень хочется надеяться, что OVQ - это предтеча настоящего непрерывного обучения, где в светлом будущем вместо бесконечно пухнущего KV-кэша появится компактная, но живая память, способная удерживать важные детали без потерь. 🟡Статья 🟡Arxiv @ai_machinelearning_big_data #AI#ML#LLM#OVQA#Zyphra

32,600 views

Опубликован 26 нояб.

🌟ZAYA1: первая MoE-модель, полностью обученная на стеке AMD. Есть устойчивое мнение, что серьезное обучение нейросетей возможно только на чипах одной известной компании. В Zyphra решили доказать обратное, и, в сотрудничестве с AMD и IBM провели эксперимент, который на практике доказал, что есть альтернатива. Стартап опубликовал техотчет и результат - модель ZAYA1. Это первая модель архитектуры MoE, обученная полностью на платформе AMD. Сеттинг проекта был действительно "красным": графические процессоры AMD Instinct, сетевые интерфейсы AMD Pensando и программный стек ROCm. ZAYA1 получилась довольно интересной. У неё 8.3 млрд. общих параметров, из которых активных всего 800 миллионов. Несмотря на компактность, в тестах она выглядит бодро. В ризонинге, математике и программирование ZAYA1 обошла Llama-3-8B и OLMoE. А по общим показателям встала в один ряд с Qwen3-4B и гугловской Gemma3-12B. Обучение проходило на кластере IBM Cloud, где модель переварила 14 трлн. токенов. Но дело не только в железе, в папйплайне использовали архитектурные инновации: 🟢Новый механизм внимания - Compressed Convolutional Attention. Он использует свертки внутри блока внимания, это снизило нагрузку на вычисления и память. 🟢Переделали маршрутизатор MoE. Вместо стандартного линейного роутера, ZAYA1 использует сложную последовательность операций, что заставляет "экспертов" внутри нейросети специализироваться гораздо лучше. 🟢Residual Scaling. Добавили обучаемые скалярные гейты в остаточный стрим на выходы каждого блока, чтобы модель контролировала степень забывания. ⚠️ Для запуска инференса потребуется ветка zaya форка transformers из репозитория Zyphra. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Модель 🟡Arxiv @ai_machinelearning_big_data #AI#ML#LLM#MoE#Zyphra

33,300 views