Post #9082

@ai_machinelearning_big_data

Machinelearning

Просмотры33,300Количество просмотров

Опубликован26 нояб.26.11.2025, 11:35

Содержимое поста

Содержимое

🌟ZAYA1: первая MoE-модель, полностью обученная на стеке AMD. Есть устойчивое мнение, что серьезное обучение нейросетей возможно только на чипах одной известной компании. В Zyphra решили доказать обратное, и, в сотрудничестве с AMD и IBM провели эксперимент, который на практике доказал, что есть альтернатива. Стартап опубликовал техотчет и результат - модель ZAYA1. Это первая модель архитектуры MoE, обученная полностью на платформе AMD. Сеттинг проекта был действительно "красным": графические процессоры AMD Instinct, сетевые интерфейсы AMD Pensando и программный стек ROCm. ZAYA1 получилась довольно интересной. У неё 8.3 млрд. общих параметров, из которых активных всего 800 миллионов. Несмотря на компактность, в тестах она выглядит бодро. В ризонинге, математике и программирование ZAYA1 обошла Llama-3-8B и OLMoE. А по общим показателям встала в один ряд с Qwen3-4B и гугловской Gemma3-12B. Обучение проходило на кластере IBM Cloud, где модель переварила 14 трлн. токенов. Но дело не только в железе, в папйплайне использовали архитектурные инновации: 🟢Новый механизм внимания - Compressed Convolutional Attention. Он использует свертки внутри блока внимания, это снизило нагрузку на вычисления и память. 🟢Переделали маршрутизатор MoE. Вместо стандартного линейного роутера, ZAYA1 использует сложную последовательность операций, что заставляет "экспертов" внутри нейросети специализироваться гораздо лучше. 🟢Residual Scaling. Добавили обучаемые скалярные гейты в остаточный стрим на выходы каждого блока, чтобы модель контролировала степень забывания. ⚠️ Для запуска инференса потребуется ветка zaya форка transformers из репозитория Zyphra. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Модель 🟡Arxiv @ai_machinelearning_big_data #AI#ML#LLM#MoE#Zyphra