TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #413 · 16 фев.

А что происходит на противоположном фронте? Вы, вероятно, слышали, что 2026 год называют годом Linux на десктопе (в каких-то узких кругах - годом гейминга на Linux). Всё потому, что экосистема Linux постепенно становится более дружелюбной для обычных десктоп-юзеров (в том числе привыкших к Windows), и не только! ▫️ всё чаще появляются Linux дистрибутивы визуально похожиена Windows (или даже лучше), и множество видео с советами какой дистрибутив попробовать новичкам. ▫️ обновления ядра и любых пакетов в экосистеме Linux всегда привносят оптимизацию и удобство и поддержку свежего железа (привет винде с её обратной тенденцией). Например грядущая версия 7.0, опять с множеством приятных мелочей. ▫️ после 10 лет с последего релиза версии 5 окружение KDE Plasma получила мажорный апдейт версии 6 и активно развивается (уже доросла до 6.5). GNOME тоже не спит и готовит версию 50. ▫️ в Wine добавили патч позволяющий устанавливать продукты Adobe на Linux. Для кого-то это был последний рубеж?😏 ▫️ Proton активно развивается, да так, что через эту прослойку игры работают даже быстрей чем нативно на винде. ▫️ с каждым релизом Wine и Proton поддерживается всё больше игр, что можно отслеживать на ProtonDB, и даже случаются бусты производительности. ▫️ Я сам на днях на виндобук поставил ChacyOS после чего игры, которые тянули гдето в 5-10 FPS, стали играбельными! Подтверждено личным опытом! Кстати, есть несколько дистрибутивов заточенные именно под игры. ▫️ Valve выпускают новую пачку железок которые (предположительно) порвут рынок гейминга (как и в прошлый раз) и (определнно точно) работают на Linux. Именно Valve вливает ресурсы в Linux в целом и в Proton в частности. ▫️ Госсектор разных стран давно уже мигрирует на opensource, так как нет доверия системе которая может одномоментно неконтролируемо массово рухнуть или быть удаленно заблокированной (в том числе по политическим причинам). И ниже небольшой опрос - какая у вас операционка основная? Ни к чему не призываю, ничего не советую! Просто подмечаю тенденцию и хочется узнать мнения из первых рук 😉 Знаю, что Linux тоже не идеален, знаю что каждой задаче - свой инструмент. Но это не тема поста, так что можно без холиваров) #offtop#linux

Резултати

Пронајдени 1 слични објави

Пребарај: #olmohybrid

当前筛选 #olmohybrid清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #9671 · 15.03.2026 г., 07:42

🌟OLMo Hybrid: RNN плюс трансформер в одной модели. Институт Аллена опубликовал OLMo Hybrid 7B - модель, которая построена на чередовании слоев Gated DeltaNet и стандартного внимания в соотношении 3:1. Такая архитектура решает больше подзадач из обучающих данных за меньшее число токенов, что напрямую снижает потребность в данных при обучении. Gated DeltaNet - это RNN с расширением в виде отрицательных значений матрицы переходов. Это небольшое изменение в правиле обновления внутреннего состояния позволяет слоям Gated DeltaNet реализовывать динамику попарной перестановки элементов и за счет этого решать задачи отслеживания состояния, недоступные чистым трансформерам. В OLMo Hybrid Ai2 показали, что гибридные модели выразительнее суммы своих частей. Существует класс задач (назовем их отслеживание состояния с обращением к памяти), которые не решают ни чистые трансформеры, ни чистые RNN, но гибрид справляется с ними уже при одинарном чередовании типов слоев. Абляционные эксперименты от 60M до 1B параметров показали, что GDN стабильно лучше Mamba2 как в чистом, так и в гибридном варианте, равномерное чередование слоев лучше концентрации внимания в середине сети, а соотношение 3:1 - оптимальный баланс между качеством и вычислительной стоимостью на средних и крупных масштабах. 🟡Тесты 🟢На MMLU OLMo Hybrid достигает той же точности, что OLMo 3 7B, используя на 49% меньше токенов; на срезе Common Crawl - на 35% меньше. 🟢Коэффициент эффективности использования данных у гибрида равен 83,7 против 94,9 у трансформера. 🟢Экономия данных растет с размером модели: примерно в 1,3 раза на 1B параметров и в 1,9 раза на 70B. После дообучения и адаптации к длинному контексту OLMo Hybrid обходит OLMo 3 во всех категориях оценки. На RULER при 64k токенах - 85,0 против 70,9 у базовой модели. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Набор моделей 🟡Техотчет @ai_machinelearning_big_data #AI#ML#LLM#OLMoHybrid#Ai2