TGTGInsighttelegram intelligenceLIVE / telegram public index
← AML
AML avatar

TGINSIGHT POST

Post #761

@MachineLearningResearch

AML

Views70Post view count
PostedMar 1603/16/2026, 11:22 AM
Post content

Post content

Kimi становится DeepSeek 2. Самая обсуждаемая работа сегодня - Moonshot AI, разработчики Kimi, выпустили свежую работу Attention Residuals В обычных нейросетях каждый слой просто прибавляет своё к предыдущему Всегда одинаково, вслепую Attention Residuals предлагает другое - пусть сеть сама выбирает, что взять из предыдущих слоёв и в разных пропорциях для разных входных данных Грубо говоря, они применили механизм attention не по горизонтали (между токенами), а по вертикали (между слоями) Что это даёт на практике: 1. та же точность модели при в 1.25 раза меньших вычислениях 2. замедление инференса менее чем на 2 % 3. лучшая стабильность обучения Работает как замена без переделки архитектуры Проверено на их собственной модели Kimi Linear (48B параметров) Moonshot не гонятся за параметрами, они выжимают больше из той же архитектуры