TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват310,200Просмотры последних постов
Последние посты

Последние посты

Тег: #llm · 154 постов

当前筛选 #llm清除筛选

Опубликован 15 апр.

📌Массовое использование чат-ботов унифицирует то, как люди пишут и рассуждают Университет Южной Калифорнии опубликовал в журнале Trends in Cognitive Sciences статью, в которой утверждают, что массовое использование больших языковых моделей постепенно размывает индивидуальные различия в речи, письме и мышлении. Авторский коллектив возглавляет профессор психологии и информатики Мортеза Дехгани. Научные интересы Дехгани лежат на стыке психологии, когнитивной науки и искусственного интеллекта: он известен работами по вычислительному анализу морального и политического языка, применению методов NLP к большим текстовым корпусам (от социальных сетей до литературы) и изучению того, как ценности и групповая мораль проявляются в речи. По мнению исследователей, когда миллионы людей обращаются к узкому кругу одних и тех же чат-ботов, стилистические, смысловые и логические особенности отдельных людей стираются, а на выходе получается «стандартизированное выражение мыслей». Этот процесс вызывает беспокойство: модели не просто влияют на манеру письма, но и незаметно переопределяют, что считается достоверной речью, корректной точкой зрения и хорошим рассуждением. Тексты, сгенерированные LLM, менее разнообразны, чем написанные людьми, и в среднем воспроизводят язык, ценности и логические схемы западных, образованных, индустриальных, состоятельных и демократических сообществ. Причина - в обучающих выборках, где непропорционально представлены доминирующие языки и идеологии. В статье приводится и обратный эффект: отдельный пользователь с помощью чат-бота, как правило, генерирует больше идей, чем без него, однако группы людей, опирающиеся на LLM, в итоге выдают меньше оригинальных решений, чем те же группы, работающие без ИИ. Авторы также указывают, что популярные модели тяготеют к линейным схемам вроде CoT, что, по их оценке, может вытеснять интуитивные и абстрактные подходы. Они ссылаются на данные о том, что после взаимодействия с предвзятой моделью мнения пользователей смещаются в ее сторону. 🟡Рекомендация авторов При обучении моделей следует закладывать реальное языковое и культурное многообразие, а не случайные вариации. Это одновременно сохранит бы когнитивное разнообразие в обществе и улучшит способности самих чат-ботов к рассуждению. 🟡Дисклеймер Это не эмпирическое исследование с собственными экспериментами, обзорно-полемическая работа, обобщающая чужие исследования и выдвигающая гипотезу. Сужение стилистики, сдвиг мнений после общения с моделью - подтверждены отдельными исследованиями, а вот более широкие тезисы о глобальной гомогенизации мышления остаются дискуссионными. Работа выполнена при поддержке Управления научных исследований Минобороны США. @ai_machinelearning_big_data #AI#ML#LLM#Research#Cognitive#NLP

20,300 views

Опубликован 31 мар.

📌Нейроанатомия LLM: улучшаем модель без дообучения. Дэвид Ноэль, независимый исследователь из Мюнхена, в середине 2024 года занял 1 место на HuggingFace Open LLM Leaderboard методом, который не требует ни новых данных, ни файнтюна. Он взял 80-слойную Qwen2-72B, продублировал блок из 7 средних слоёв (45–51) и получил модель RYS-XLarge, где каждый добавленный параметр - копия уже существующего. На 5 из 6 бенчмарков лидерборда результаты выросли: MuSR прибавил 17,7%, MATH - 8,2%. Позже ByteDance предложила Looped Language Models (ноябрь 2025), но Дэвид пришёл к своим выводам независимо на основе 2 наблюдений: LLM способны вести связный диалог в Base64 - модель декодирует вход, рассуждает и перекодирует ответ обратно. Если это работает, то получается, что ранние слои транслируют входные данные в абстрактное внутреннее представление, поздние переводят его обратно в текст, а средние занимаются рассуждением в формате, не привязанном к конкретному языку. Модель Goliath-120B, где слои двух разных 70B-моделей были перемешаны так, что выход поздних слоёв подавался на вход ранних. По всем канонам обучения это не должно было работать, но работало. Внутренние представления трансформеров оказались куда однороднее, чем предполагалось. Для поиска оптимальной конфигурации Дэвид построил «сканер мозга» трансформера: берется блок слоёв (с 20-го по 35-й), затем он вставляется повторно и на инференсе замеряется, стала модель лучше или хуже. Так перебираются все возможные начала и концы блока (3241 конфигурация). Каждую конфигурацию Дэвид прогонял через 2 быстрых теста: арифметику без CoT и EQ-Bench. Тепловые карты сканера показали, что средние слои можно дублировать с пользой, а вот крайние - нельзя. При этом повтор только одного слоя почти всегда ухудшает результат. Cредние слои работают как цельные функциональные контуры, и вырванный из цепочки шаг бесполезен. Буквально на днях Дэвид опубликовал продолжение, но уже с Qwen3.5-27B. Эксперимент с косинусным сходством скрытых состояний для текстовых запросов на 8 языках впервые показал трёхфазную архитектуру напрямую: к 10 слою фразы с одинаковым смыслом на разных языках оказывались ближе друг к другу, чем на одном языке с разным смыслом. Модель думает не на каком-то из человеческих языков, а в собственном внутреннем представлении. В Qwen3.5-27B архитектура модели иная. После 2 млн. конфигураций через суррогатную модель оптимальным решением на Pareto-фронте стало простейшее - продублировать один слой из середины стека. 1,5% дополнительных вычислений и... модель становится заметно сильнее. Метод ортогонален файнтюнингу и квантованию: модель получает дополнительное время на размышление, используя контуры, которые у нее уже есть. 🟡Статья ч.1ч.2 🟡Набор RYS-моделей 🖥Github @ai_machinelearning_big_data #AI#ML#LLM#RYS

22,800 views

Опубликован 28 мар.

👀 Релиз SAM 3.1 - одной из самых сильных open-source моделей для компьютерного зрения. Модель понимает, что происходит на изображении или видео, и умеет находить объекты по текстовому описанию. Можно буквально написать «человек в красной футболке» и она найдёт нужных людей. Работает не только с картинками, но и с видео. Объект можно задать один раз, и дальше модель будет отслеживать его между кадрами. Ключевая идея - open-vocabulary. Модель не ограничена фиксированными классами, как старые системы. Она оперирует огромным количеством понятий и может находить практически любые объекты. Ещё важный момент можно комбинировать способы управления: текст, клики, рамки, маски. Это даёт гораздо больше контроля и точности. Под капотом новая архитектура, где отдельно решаются задачи поиска объектов и их отслеживания. За счёт этого модель лучше различает похожие вещи и стабильнее работает на видео. В репозитории уже есть всё для старта: готовые веса, код, примеры и ноутбуки. По факту это уже не просто инструмент для разметки, а полноценный vision-движок, который можно встраивать в реальные продукты от аналитики видео до автоматизации разметки данных. Теперь модель может отслеживать до 16 объектов за один проход. С multiplexing все объекты обрабатываются одновременно: • меньше лишних вычислений • нет узких мест по памяти Результат: скорость обработки видео увеличивается примерно в 2 раза с 16 до 32 FPS на одном NVIDIA H100! На новом бенчмарке SA-CO, который включает 270 тысяч уникальных концептов, SAM 3 достигает 75–80% от уровня человека. https://github.com/facebookresearch/sam3 @ai_machinelearning_big_data #ai#ml#llm#cv#python

25,200 views

Опубликован 25 мар.

📌Google разработала алгоритм квантования KV-кэша без потери точности. Подразделение Research анонсировало TurboQuant, алгоритм векторного квантования, объединяющий 2 других метода - QJL и PolarQuant, который решает проблему увеличения KV-кэша при работе с длинным контекстом. TurboQuant будет представлен на ICLR 2026, PolarQuant - на AISTATS 2026. KV-кэш хранит промежуточные представления токенов, чтобы модель не пересчитывала их на каждом шаге генерации. С ростом контекста он превращается в узкое место по памяти. Обычное векторное квантование сжимает эти данные, но вносит накладные расходы: для каждого блока нужно хранить константы квантования в полной точности, а это плюс 1–2 бита на элемент, что частично обесценивает само сжатие. 🟡TurboQuant - двухэтапный пайплайн. Сначала PolarQuant: случайный поворот выравнивает геометрию векторов, после чего они переводятся из декартовых координат в полярные (радиус и угол). Распределение углов оказывается предсказуемым и сконцентрированным, поэтому нормализация и хранение дополнительных констант становятся больше не нужны. На втором этапе подключается QJL, метод на основе преобразования Джонсона-Линденштраусса, который кодирует остаточную ошибку первого этапа всего одним знаковым битом и через встроенную оценочную функцию сочетает высокоточный запрос с низкоточными сжатыми данными, корректно вычисляя attention score. Ни один из методов не требует обучения или дообучения и работает в режиме "без предварительного анализа набора данных". Алгоритмы тестили на бенчмарках для длинного контекста: LongBench, Needle In A Haystack, ZeroSCROLLS, RULER и L-Eval с моделями Gemma и Mistral. При квантовании KV-кэша до 3 бит TurboQuant показал нулевую деградацию точности на всех задачах: поиск «иголки в стоге сена», QA, генерация кода, суммаризация. Объем KV-кэша при этом сократился в 6 раз. На H100 четырехбитный TurboQuant ускорил вычисление attention-логитов до 8 раз по сравнению с 32-битными ключами. Область применения не ограничивается KV-кэшем. В экспериментах с высокоразмерным векторным поиском TurboQuant стабильно превзошел по recall методы PQ и RaBitQ несмотря на то, что те использовали крупные код-буки и подстройку под конкретный датасет. 🟡Статья 🟡Arxiv @ai_machinelearning_big_data 🎯Полезные Мл-ресурсы🚀Max #AI#ML#LLM#TurboQuant#Google

33,500 views

Опубликован 24 мар.

🚨 Обнаружено, что релиз LiteLLM на PyPI версии 1.82.8 содержит вредоносный код. Стандартная команда `pip install litellm` могла привести к утечке: SSH-ключей, учётных данных AWS/GCP/Azure, Kubernetes-конфигов, git-доступов, всех API-ключей из переменных окружения, истории команд, SSL-ключей, CI/CD-секретов и паролей к базам данных. И это не нишевая библиотека, у LiteLLM около 97 млн скачиваний в месяц. Даже без прямой установки litellm вредоносный код мог попасть к пользователям через другие пакеты (например, `dspy`). Скомпрометированную версию пакета обнаружили случайно: при установке пакета у разработчика произошёл сбой из-за утечки памяти. Без этого сбоя атака могла оставаться незамеченной долгое время . Supply chain атаки становятся одним из самых серьёзных рисков в современной разработке. Подход «использовать как можно больше готовых библиотек» требует некоторого переосмысления. Andrej Karpathy: https://x.com/karpathy/status/2036488892443140551 1. Первичный разбор (issue на GitHub): https://github.com/BerriAI/litellm/issues/24512 - подробное техническое описание вредоносного кода: что именно крадёт и как работает 2. Официальный issue от BerriAI: https://github.com/BerriAI/litellm/issues/24518 — реакция команды и обновления по ситуации 3. Блог FutureSearch (обнаружили атаку): https://futuresearch.ai/blog/litellm-pypi-supply-chain-attack/ • как баг с fork bomb в вредоносном коде уронил машину и помог выявить атаку 4. Полный таймлайн TeamPCP от ramimac: https://ramimac.me/teampcp/ — вся цепочка атаки: Trivy → Checkmarx → litellm, с точными временными метками и IOC 5. Тред на Hacker News (основной): https://news.ycombinator.com/item?id=47501729 - обсуждение в реальном времени, включая ответы от Krrish (maintainer litellm) 6. Разбор от GitGuardian: https://blog.gitguardian.com/trivys-march-supply-chain-attack-shows-where-secret-exposure-hurts-most/ - анализ того, как утечка CI/CD-секретов запустила всю цепочку атаки @ai_machinelearning_big_data #llm#ml#cybersecurity

33,100 views

Опубликован 24 мар.

⚡️ Сбер выпустил крупнейшее обновление ГигаЧат — и выложил в open source. GigaChat Ultra и GigaChat-3.1-Lightning уже под MIT-лицензией. Текущее обновление дало заметный прирост по качеству ответов, устойчивости генерации и прикладным сценариям использования. Модели можно разворачивать в закрытом контуре, адаптировать под корпоративные данные и использовать как базу для чат-ботов, внутренних ассистентов и отраслевых AI-сервисов. 🟡Что важно в самом обновлении В статье на Хабр команда описывает переход от Dense к MoE, переработку этапа постобучения и отдельную работу над устойчивостью генерации. Один из ключевых результатов — модели значительно реже уходят в циклы, то есть стабильнее ведут себя в длинных ответах и диалогах. В релизных материалах это вынесено как отдельное качественное улучшение. DPO-этап переведён в нативный FP8. Практический смысл этого изменения — более эффективное использование памяти на этапе дообучения без потери качества относительно предыдущих версий. Дополнительно в ходе работы был выявлен критичный баг в SGLang, который влиял на качество и корректность замеров. 🟡По моделям Ultra в этом обновлении заметно усилилась в математике, задачах на рассуждение. Lightning — компактная модель с 1,8 млрд активных параметров, ориентированная на быстрые сценарии. При этом в релизе отдельно отмечен рост качества общения, следования инструкциям и общих знаний. ГигаЧат получил две новые функции: научился искать в интернете прямо во время диалога и научился в запоминать важные факты для пользователя — это называется долгосрочная память. ✔️ Для разработчиков это означает, что open source-релиз принёс не просто открытые веса, а более зрелую и инженерно доработанную базу, на которой можно строить как качественные, так и экономически эффективные решения. Для рынка — это шаг к развитию собственной открытой экосистемы русскоязычных моделей, пригодных для реальных продуктовых внедрений. @ai_machinelearning_big_data #news#ai#ml#llm#opensource

21,100 views

Опубликован 21 мар.

🌟NVIDIA Nemotron-Cascade 2: MoE на 30B параметров и золото на математических олимпиадах. Nemotron-Cascade 2 - вторая в мире открытая языковая модель, получившая золотую медаль сразу на 3 соревнованиях 2025 года: IMO, IOI и финале ICPC. До нее это удавалось только DeepSeek-V3.2-Speciale, модели с 671B параметров и 37B активных. У Nemotron-Cascade 2 параметров в 20 раз меньше: 30B общих, 3B активных. 🟠На IMO 2025 модель решила 5 задач из 6 и набрала 35 из 42 баллов. 🟠На IOI - 439 из 600, что соответствует золоту. 🟠На ICPC World Finals 10 задач из 12, это 4 место в золотой зоне. При этом 8 задач ICPC были решены менее чем за 100 попыток. 🟡Архитектура MoExperts на базе Nemotron-3-Nano-30B-A3B-Base. Отличие от первой версии - расширенный Cascade RL, где обучение с подкреплением проходит последовательно по доменам: сначала следование инструкциям, затем мультидоменное RL, потом дистилляция, RLHF, работа с длинным контекстом, код и, наконец, задачи программной инженерии. 🟡Multi-Domain On-Policy Distillation (MOPD) На каждом этапе Cascade RL выбирается лучший промежуточный чекпоинт по конкретному домену и используется как учитель. Поскольку все учителя происходят от одной SFT-инициализации, они делят токенайзер и словарь, что упрощает дистилляцию. MOPD работает на уровне отдельных токенов, а не последовательностей, и сходится быстрее, чем классический GRPO: на AIME 2025 достигает уровня учителя за 30 шагов оптимизации. 🟡Тесты На бенчмарках модель обходит Qwen3.5-35B-A3B и более крупную Nemotron-3-Super-120B-A12B в математике, коде и следованию инструкциям. 🟢LiveCodeBench v6: 88.4 (у Qwen3.5 74.6); 🟢ArenaHard v2: 83.5 против 65.4 у Qwen3.5; 🟢IFBench: 82.9 против 70.2; 🟢На Codeforces модель набрала рейтинг 2345 с TIR (на уровне моделей с 300B+ параметров). 🟡Слабые места Задачи, требующие глубоких знаний (MMLU-Pro, GPQA-Diamond) и агентные сценарии (BFCL v4, τ²-Bench, SWE Verified). Тут Qwen3.5 пока впереди. NVIDIA обещает подтянуть наукоёмкий претрейн и агентный RL в следующих версиях Nemotron-Cascade. 📌Лицензирование: NVIDIA Open Model License. 🟡Модель 🟡SFT-датасет 🟡RL-данные 🟡Техотчет @ai_machinelearning_big_data #AI#ML#LLM#Nemotron#Cascade2#NVIDIA

24,800 views

Опубликован 20 мар.

🌟Mamba3 Mamba2 делала ставку на быстрое обучение. Ради этого механизм рекуррентных обновлений упрощали: матрицу переходов состояний свели к скаляру, умноженному на единичную матрицу. Обучение ускорилось, но при декодировании GPU большую часть времени не считает, а гоняет данные между уровнями памяти. Архитектура оказалась с нюансом - вычислительные ядра простаивают. С тех пор ландшафт изменился. RL с верифицируемыми наградами для кода и математики, агентные пайплайны - все это генерирует прорву токенов на инференсе. Команда Mamba3 задалась вопросом: как выглядела бы SSM-архитектура, если сделать ее с приоритетом на инференс, а не на обучение? Так родились 3 главных изменения в ядре Mamba. 🟡Новая схема дискретизации. SSM в базе - это обыкновенное дифференциальное уравнение, которое нужно перевести в дискретную рекуррентную формулу. Mamba1 и Mamba2 использовали комбинацию двух методов (ZOH и Эйлера), подобранную эмпирически. В Mamba3 реализовали экспоненциально-трапецеидальный метод: вместо одной точки для аппроксимации интеграла берутся обе границы интервала с обучаемым коэффициентом смешивания. В результате рекуррентная формула неявно применяет свёртку к входу скрытого состояния, что делает динамику выразительнее без дополнительных компонентов. 🟡Комплекснозначная SSM. Ранние модели семейства S4 работали с комплексными числами, но Mamba1 от них отказалась. Из-за этого модель не справляется даже с простейшими задачами отслеживания состояний (например, определением четности последовательности). Решение нашли во вращении в двумерном пространстве: вместо комплексных вычислений авторы разложили переход на масштабирование и поворот, а затем применили фишку из RoPE - встроили вращения в матрицы через кумулятивную сумму углов. Переписывать ядра для поддержки комплексной арифметики не пришлось. Модель решает задачи на чётность и другие бенчмарки, недоступные предыдущим версиям. 🟡Переход от SISO к MIMO. В стандартной SSM каждый хэд содержит набор независимых систем (один вход - один выход). При декодировании арифметическая интенсивность составляет около 2,5 операций на байт при пороге вычислительной загруженности на H100 в районе 300. Mamba3 расширяет матрицы, превращая внешние произведения в матричные умножения. Арифметическая интенсивность растет пропорционально. При этом размер скрытого состояния не увеличивается, а значит, латентность декодирования почти не меняется. Обучение, конечно, дорожает, но это сознательный компромисс. Еще из архитектуры убрали короткую каузальную свёртку, присутствовавшую с первой Mamba - новая рекуррентная формула и смещения выполняют ту же функцию. Добавили нормализацию BCNorm по аналогии с QKNorm в трансформерах, перешли на чередование SSM- и MLP-слоев. Ядра написаны на Triton (prefill SISO), TileLang (prefill MIMO) и CuTe DSL (decode). 🟡Тесты Mamba-3 SISO при 1,5B параметров показывает лучшую суммарную латентность prefill + decode на всех длинах последовательностей по сравнению с Mamba2, Gated DeltaNet и Llama-3.2-1B под vLLM на одном H100. MIMO-вариант сопоставим по скорости с Mamba2, но заметно точнее. При анализе Парето-фронта Mamba-3 показывает тот же уровень качества при вдвое меньшем состоянии. @ai_machinelearning_big_data #AI#ML#LLM#Mamba3#TogetherAI

21,200 views

Опубликован 19 мар.

🌟Unsloth Studio: опенсорный no-code веб-интерфейс для LLM. Unsloth Studio - это локальный комбайн, который объединяет подготовку данных, обучение, инференс и экспорт модели в одном месте. Под капотом кастомные Triton-ядра с собственным backprop. По сравнению со стандартными CUDA-реализациями это дает 2х прирост скорости обучения и снижение потребления по VRAM на 70%. Поддерживаются полный файн-тюнинг, претрейн, LoRA, QLoRA, 4-bit, 16-bit и FP8. Всего совместимо более 500 моделей, включая Llama 4, Qwen 3.5 и Gemma 3. Для работы с данными есть визуальный нодовый редактор Data Recipes. Studio принимает PDF, DOCX, CSV и JSONL, генерирует синтетические датасеты и автоматически конвертирует данные в форматы ChatML или Alpaca. Помимо стандартного SFT, Studio умеет в GRPO, которая не требует отдельной critic-модели и потребляет на 80% меньше VRAM, что делает обучение ризонинг-моделей реалистичным на локальном железе. Модели на 8B и 70B параметров (например, Llama 3.1, Llama 3.3, DeepSeek-R1) можно файн-тюнить на одной RTX 4090 или 5090, а не на кластере, но есть и поддержка multi-GPU. В режиме инференса Studio умеет: tool calling, выполнение кода прямо в чате, работу с изображениями, аудио, PDF и DOCX. Из коробки - веб-поиск и автонастройка параметров инференса. Экспорт результатов - одной кнопкой в GGUF, vLLM или Ollama. Studio сама мерджит LoRA-адаптеры с базовой моделью. Работает на Windows, Linux и macOS (на Mac пока только инференс, поддержка MLX-обучения анонсирована), есть Docker. AMD-пользователи могут обучать через Unsloth Core, поддержка в Studio обещана позже. 📌Лицензирование: AGPL-3.0. 🟡Документация 🖥Github @ai_machinelearning_big_data #AI#ML#LLM#Framework#Train#UnslothStudio

21,500 views

Опубликован 18 мар.

⚡️Mistral выпустила Small 4. Mistral Small 4 - это мультимодальный комбайн, который закрывает сразу три задачи: ризонинг, агентный кодинг и работу с изображениями. Раньше под каждую из них была отдельная модель: Magistral, Devstral и Pixtral. Теперь один чекпоинт, 🟡Архитектура MoE с 128 экспертами, из которых на каждый токен активируются 4. Всего 119B параметров, активных - 6B на токен. Контекстное окно - 256 тыс. токенов. По сравнению с Mistral Small 3 в новой версии задержка сократилась на 40%, пропускная способность выросла в 3 раза. Ключевая фича - параметр reasoning_effort. Если поставить none будет быстрый чат-режим, как в Small 3.2, а с ключом high модель начнет разворачивать цепочку рассуждений, сопоставимую с Magistral. Переключение в рантайме, без смены модели. 🟡Тесты Small 4 с включенным reasoning обходит GPT-OSS 120B на LiveCodeBench и генерирует при этом на 20% меньше токенов. На AA LCR набирает 0.72 при длине ответа 1.6K символов. Для сравнения, модели Qwen для тех же результатов нужно от 5.8K до 6.1K. Для self-hosted деплоя минимальный стенд - 4× NVIDIA HGX H100, 2× HGX H200 или 1× DGX B200. Попробовать бесплатно можно на build.nvidia.com, через Mistral API или AI Studio. 📌 Лицензирование: Apache 2.0 License. 🟡Статья 🟡Набор моделей @ai_machinelearning_big_data #AI#ML#LLM#MistralSmall4#MistralAI

23,000 views

Опубликован 16 мар.

📌 Андрей Карпаты выложил новый проект - karpathy/jobs. Он взял данные по 342 профессиям из статистики BLS (≈143 млн работников в США) и с помощью LLM оценил, насколько каждая из них подвержена влиянию AI по шкале 0–10. Результат он визуализировал в виде treemap. Средний показатель по всем профессиям: 5.3 / 10. Примеры: • разработчики ПО: 8–9 • кровельщики: 0–1 • специалисты по расшифровке медицинских записей: 10 / 10 💀💀 Паттерн довольно простой. Если вся работа происходит за экраном, риск автоматизации высокий. Если она требует физического труда и непредсказуемой среды, вы гораздо безопаснее. По оценке Карпати, около 57 млн работников в США - почти 40% всей рабочей силы - находятся в зоне высокого риска изменений из-за AI. https://karpathy.ai/jobs/ @ai_machinelearning_big_data #ai#ml#future#jobs#llm

33,300 views

Опубликован 15 мар.

🌟OLMo Hybrid: RNN плюс трансформер в одной модели. Институт Аллена опубликовал OLMo Hybrid 7B - модель, которая построена на чередовании слоев Gated DeltaNet и стандартного внимания в соотношении 3:1. Такая архитектура решает больше подзадач из обучающих данных за меньшее число токенов, что напрямую снижает потребность в данных при обучении. Gated DeltaNet - это RNN с расширением в виде отрицательных значений матрицы переходов. Это небольшое изменение в правиле обновления внутреннего состояния позволяет слоям Gated DeltaNet реализовывать динамику попарной перестановки элементов и за счет этого решать задачи отслеживания состояния, недоступные чистым трансформерам. В OLMo Hybrid Ai2 показали, что гибридные модели выразительнее суммы своих частей. Существует класс задач (назовем их отслеживание состояния с обращением к памяти), которые не решают ни чистые трансформеры, ни чистые RNN, но гибрид справляется с ними уже при одинарном чередовании типов слоев. Абляционные эксперименты от 60M до 1B параметров показали, что GDN стабильно лучше Mamba2 как в чистом, так и в гибридном варианте, равномерное чередование слоев лучше концентрации внимания в середине сети, а соотношение 3:1 - оптимальный баланс между качеством и вычислительной стоимостью на средних и крупных масштабах. 🟡Тесты 🟢На MMLU OLMo Hybrid достигает той же точности, что OLMo 3 7B, используя на 49% меньше токенов; на срезе Common Crawl - на 35% меньше. 🟢Коэффициент эффективности использования данных у гибрида равен 83,7 против 94,9 у трансформера. 🟢Экономия данных растет с размером модели: примерно в 1,3 раза на 1B параметров и в 1,9 раза на 70B. После дообучения и адаптации к длинному контексту OLMo Hybrid обходит OLMo 3 во всех категориях оценки. На RULER при 64k токенах - 85,0 против 70,9 у базовой модели. 📌Лицензирование: Apache 2.0 License. 🟡Статья 🟡Набор моделей 🟡Техотчет @ai_machinelearning_big_data #AI#ML#LLM#OLMoHybrid#Ai2

30,400 views
123•••10•••1213
НазадСтр. 1 из 13Вперёд