TGINSIGHT CHAT
Machinelearning
@ai_machinelearning_big_data
ТехнологииПогружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Последние посты
Тег: #nvidia · 34 постов
🌟Lyra 2.0: фреймворк для генерации исследуемых 3D-миров по одной фотографии. NVIDIA опубликовала веса модели и код Lyra 2.0 - системы, которая принимает на вход изображение, генерирует видео с управляемой траекторией камеры, а затем реконструирует его в 3D-гауссианы и полигональные меши. Готовые ассеты можно напрямую импортировать в игровые движки и робототехнические симуляторы. Система будет полезна для массовой генерации тренировочных 3D-сред для воплощенного ИИ. Главная задача, которую решает фреймворк - сохранение согласованности сцены при длительном пролете камеры. Lyra 2.0 хранит 3D-геометрию каждого кадра в отдельном кэше, при возврате извлекает релевантные исторические кадры по степени перекрытия видимости и устанавливает плотные геометрические соответствия через варпинг канонических координат. Геометрия используется только для маршрутизации информации - какие кадры извлечь и как их сопоставить с текущим ракурсом. За синтез внешнего вида отвечает диффузионная модель. Базовая модель построена на архитектуре Wan 2.1-14B с выходным разрешением 832×480. Для 3D-реконструкции применяется дообученная версия Depth Anything v3 в feed-forward режиме, а поверхностные меши извлекаются через иерархический подход на основе OpenVDB. На бенчмарках DL3DV и Tanks and Temples Lyra 2.0 превзошла все аналоги (GEN3C, CaM, SPMem, VMem, Yume-1.5 и HY-WorldPlay) практически по всем метрикам: FID, SSIM, LPIPS, субъективное качество и стилистическая согласованность. Первая версия фреймворка, вышедшая в сентябре, поддерживала лишь генерацию на коротких дистанциях. Ближайший конкурент второй версии, Genie 3 от Google, обладает схожими возможностями, но остаётся закрытым. 🟡Страница проекта 🟡Arxiv 🟡Модель 🖥GitHub @ai_machinelearning_big_data #AI#ML#3DWorlds#Lyra2#NVIDIA
🌟Audio Flamingo Next: открытая аудио-языковую модель от NVIDIA Audio Flamingo Next (AF-Next) - аудио-языковая модель, обученная на корпусе из 1 млн часов аудио и 108 млн примеров для генерации подробных текстовых описаний аудиозаписей: перечисление инструментов, звуковых событий и музыкальных характеристик того, что звучит на записи. Максимальная длина входного аудио - 30 минут. Релиз закрывает отставание мультимодальных систем в работе со звуком: речью, музыкой и окружающими шумами на длинных записях. 🟡Архитектура собрана из 4-х блоков: 🟢Кодировщик AF-Whisper (128-канальная лог-мел-спектрограмма, окно 25 мс, шаг 10 мс, выход 50 Гц); 🟢Двухслойный MLP-адаптер; 🟢Qwen-2.5-7B с расширенным контекстом 128K токенов; 🟢Потоковый TTS-модуль для голосовых диалогов. Фишка архитектуры - Rotary Time Embeddings: угол поворота токена привязывается к реальной временной метке аудио, что дает модели устойчивое временное рассуждение. 🟡Релиз состоит из 3-х версий AF-Next-Captioner: модель, заточенная под детальное описание аудио. Она генерирует подробные текстовые описания аудиозаписей: перечисляет инструменты, звуковые события, спикеров и музыкальные характеристики того, что звучит на записи, с привязкой к таймкодам. На распознавании инструментов Medley-Solos-DB она набирает 92,13 против 85,80 у Audio Flamingo 2. На музыкальных описаниях SongCaps, где качество оценивает GPT-5, показатели покрытия и корректности выросли с 6,7 и 6,2 у AF3 до 8,8 и 8,9. AF-Next-Instruct: универсальная инструктивная версия, после GRPO для повседневных задач: ответов на вопросы по аудио, голосовых ассистентов, транскрипции речи и перевода. Именно она устанавливает новые планки среди LALM по ASR. WER 1,54 на LibriSpeech. На LongAudioBench 73,9 против 60,4 у закрытой Gemini 2.5 Pro (в варианте с речью разрыв еще больше - 81,2 против 66,2.) AF-Next-Think: ризонинг-версия с Temporal Audio Chain-of-Thought: модель привязывает каждый шаг рассуждения к конкретной временной метке в аудио, что делает ее пригодной для разбора длинных записей, где нужно собирать факты из разных моментов (анализа совещаний, интервью, подкастов, трейлеров и сюжетных аудиоисторий). 75,01 на MMAU-v05.15.25 и 58,7 на более жестком MMAU-Pro, что выше, чем у Gemini-2.5-Pro (57,4). 📌Лицензирование: NVIDIA OneWay Noncommercial License. 🟡Страница проекта 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#MMLM#Audio#AudioFlamingo#NVIDIA
🌟Kimodo: диффузионная модель для генерации 3D-движений людей. NVIDIA выложила в открытый доступ проект Kimodo - генеративную модель на основе диффузии, которая создает реалистичные трехмерные движения для человеческих и робототехнических скелетов. Kimodo принимает на вход текстовые промпты и ключевые позы всего тела, позиции и вращения конечностей, двухмерные пути и контрольные точки. Это позволяет точно управлять генерацией: от общего описания наподобие "персонаж идет и садится на стул" до детального контроля положения рук и ног в кадрах. Всего доступно 5 вариантов модели для 3 типов скелетов: SOMA, SMPL-X и Unitree G1. Первые два ориентированы на анимацию аватаров, третий - на робота Unitree G1. Модели, обученные на полном датасете Bones Rigplay 1 (700 часов), NVIDIA рекомендует как основные рабочие. Варианты на сете BONES-SEED (288 часов) предназначены для бенчмаркинга и сравнения с собственными разработками. Для работы с Kimodo предусмотрены 3 интерфейса: 🟢Интерактивное веб-демо с таймлайн-редактором; 🟢CLI-утилита для пакетной генерации; 🟢Python API для тонкой настройки . Под инференс потребуется около 17 ГБ видеопамяти, модели запускали на RTX 3090, RTX 4090 и NVIDIA A100. 🟡Интеграция с робототехническим стеком NVIDIA. ProtoMotions позволяет брать сгенерированные движения и обучать на них физически корректные политики управления в GPU-ускоренной симуляции — как для аватаров, так и для Unitree G1. Через General Motion Retargeting движения, созданные на скелете SMPL-X, можно перенести на произвольных роботов. 📌Лицензирование: Код проекта под Apache 2.0, большинство моделей под NVIDIA Open Model License. Вариант SMPL-X имеет более ограниченную NVIDIA R&D Model License, она допускает только исследовательское применение. 🟡Набор моделей 🟡Техотчет 🖥Github @ai_machinelearning_big_data #AI#ML#Robotics#Kimodo#NVIDIA
🌟NVIDIA Nemotron-Cascade 2: MoE на 30B параметров и золото на математических олимпиадах. Nemotron-Cascade 2 - вторая в мире открытая языковая модель, получившая золотую медаль сразу на 3 соревнованиях 2025 года: IMO, IOI и финале ICPC. До нее это удавалось только DeepSeek-V3.2-Speciale, модели с 671B параметров и 37B активных. У Nemotron-Cascade 2 параметров в 20 раз меньше: 30B общих, 3B активных. 🟠На IMO 2025 модель решила 5 задач из 6 и набрала 35 из 42 баллов. 🟠На IOI - 439 из 600, что соответствует золоту. 🟠На ICPC World Finals 10 задач из 12, это 4 место в золотой зоне. При этом 8 задач ICPC были решены менее чем за 100 попыток. 🟡Архитектура MoExperts на базе Nemotron-3-Nano-30B-A3B-Base. Отличие от первой версии - расширенный Cascade RL, где обучение с подкреплением проходит последовательно по доменам: сначала следование инструкциям, затем мультидоменное RL, потом дистилляция, RLHF, работа с длинным контекстом, код и, наконец, задачи программной инженерии. 🟡Multi-Domain On-Policy Distillation (MOPD) На каждом этапе Cascade RL выбирается лучший промежуточный чекпоинт по конкретному домену и используется как учитель. Поскольку все учителя происходят от одной SFT-инициализации, они делят токенайзер и словарь, что упрощает дистилляцию. MOPD работает на уровне отдельных токенов, а не последовательностей, и сходится быстрее, чем классический GRPO: на AIME 2025 достигает уровня учителя за 30 шагов оптимизации. 🟡Тесты На бенчмарках модель обходит Qwen3.5-35B-A3B и более крупную Nemotron-3-Super-120B-A12B в математике, коде и следованию инструкциям. 🟢LiveCodeBench v6: 88.4 (у Qwen3.5 74.6); 🟢ArenaHard v2: 83.5 против 65.4 у Qwen3.5; 🟢IFBench: 82.9 против 70.2; 🟢На Codeforces модель набрала рейтинг 2345 с TIR (на уровне моделей с 300B+ параметров). 🟡Слабые места Задачи, требующие глубоких знаний (MMLU-Pro, GPQA-Diamond) и агентные сценарии (BFCL v4, τ²-Bench, SWE Verified). Тут Qwen3.5 пока впереди. NVIDIA обещает подтянуть наукоёмкий претрейн и агентный RL в следующих версиях Nemotron-Cascade. 📌Лицензирование: NVIDIA Open Model License. 🟡Модель 🟡SFT-датасет 🟡RL-данные 🟡Техотчет @ai_machinelearning_big_data #AI#ML#LLM#Nemotron#Cascade2#NVIDIA
🌟Nemotron-Terminal: небольшое семейство для терминальных задач. NVIDIA обучила семейство моделей Nemotron-Terminal для автономной работы в терминале Linux: устанавливать зависимости, писать и запускать код, отлаживать окружения и выполнять сквозные инженерные задачи без участия человека. Семейство построено на базе Qwen3 и специально собранном датасете Terminal-Corpus. И фишка не в архитектуре, а в данных. 🟡NVIDIA собрала пайплайн Terminal-Task-Gen с 2 потоками. Первый адаптирует готовые датасеты по математике, коду и SWE-задачам под терминальный формат (без участия LLM в процессе адаптации). Второй генерирует синтетику 2 методами: seed-based (LLM создает новые задачи на основе существующих задач из смежных областей) и skill-based (LLM комбинирует до пяти примитивных навыков из таксономии по 9 доменам: Security, Data Science, System Administration и другим). 🟡В открытый релиз вошли все три модели на 8B, 14B, 32B параметров и 2 датасета: Terminal-Corpus: около 366K траекторий выполнения задач, разбитых на два потока: ~226K адаптированных примеров из Math/Code/SWE и ~140K синтетических задач на основе skill-таксономии. Synthetic-Tasks: задачи в стандартизированном формате: инструкция, Docker-окружение из 9 преднастроенных образов и верификационный набор на pytest. 🟡Результаты прогонов на бенчах. На Terminal-Bench 2.0 все 3 модели показали кратный рост относительно базовой Qwen3: 8B - с 2.5% до 13%, 14B - с 4% до 20.2%, 32B - с 3.4% до 27.4%. Для сравнения: Qwen3-Coder на 480B параметров набирает 23.9%, GPT-5-Mini - 24.0%, Grok 4 - 23.1%. Nemotron-Terminal-32B превосходит или вплотную конкурирует с ними всеми при разнице в размере на порядок. 🟡Несколько внезапных выводов из абляции. Фильтрация неудачных траекторий вредит. Модель, обученная на всех траекториях включая ошибочные, набирает 12.4% против 5.06% у варианта только с успешными. Curriculum learning (сначала простые данные, потом сложные) не дал преимуществ перед простым смешанным обучением. Увеличение контекстного окна с 32K до 65K токенов также не помогло, длинные траектории оказались шумнее. 📌Лицензирование моделей: NVIDIA Open Model License 📌Лицензирование датасетов : CC-BY-4.0 License. 🟡Набор моделей 🟡Arxiv @ai_machinelearning_big_data #AI#ML#LLM#NemotronTerminal#NVIDIA
🌟NVIDIA KVzap: жмем KV-кэш в 4 раза. Все любят длинный контекст, но для GPU это больно - KV-кэш растет линейно и быстро сжирает VRAM. Например, для Llama-65B на 128k токенов кэш весит 335 ГБ. Существующие методы прунинга либо медленные, либо тупые и режут важное, либо требуют переобучения модели. NVIDIA предложили метод KVzap, который решает, какие токены можно забыть, глядя только на текущие хидден-стэйты. 🟡Логика метода разбита на 2 этапа: Поиск идеала (KVzip+). Берется медленный, но точный метод KVzip: модели скармливают текст, заставляют его повторить, и смотрят, на какие прошлые токены она реально обращает внимание. Это золотой стандарт важности токена. Но в проде так делать нельзя, это двойная работа. Аппроксимация (KVzap). Тут и происходит вся суть: крошечная модель-суррогат смотрит на входящий хидден-стэйт токена и предсказывает, насколько этот токен будет важен в будущем, то есть пытается угадать скор KVzip. Модели 2-х видов: KVzap-Linear: простейшая линейная проекция (одна матрица). Она берет хиден-стэйт и тупо проецирует его в скалярный скор важности. Сложность: экстремально низкая (~0.02%). KVzap-MLP: двухслойный перцептрон. Внутри есть скрытый слой размером 1/8 от размерности модели и нелинейная активация. Сложность: низкая, но выше линейной (~1.1%). 🟡Все вместе это работает так Токен залетает в слой трансформера, модель-суррогат быстро считает его скор важности. Если он ниже порога - токен в кэш не пишется или удаляется. Но при этом всегда оставляется скользящее окно из последних 128 токенов, чтобы не терять локальный контекст, иначе модель сыпется. 🟡Результаты тестов. Проверяли на Qwen3-8B, Llama-3.1-8B и Qwen3-32B. Спойлер: работает везде. Удалось выкинуть до 75% KV-кэша, а это сжатие в 4 раза. На бенчмарках RULER (длинный контекст), LongBench и AIME25 падение метрик или нулевое, или меньше 1%. Оверхед от суррогатной модели мизерный - менее 1% FLOPs. 🟡Звучит, конечно, как гем, но давайте про минусы: 🟠Нужно дообучить этот маленький MLP для каждого слоя целевой модели. Датасет нужен, но процесс быстрый. 🟠Удаление токенов создает рваный кэш. У разных голов будет разное количество сохраненных токенов. Это плохо, потому что стандартные ядра Paged Attention любят структуру. Чтобы реально получить ускорение, а не только экономию памяти, нужно писать кастомные CUDA-ядра, которые смогут эффективно жевать блоки переменной длины. 🟠Порог отсечения фиксированный. Если промахнуться с ним, то модель начнет галлюцинировать или забудет начало. 🟡По итогу, KVzap - крутой шаг к тому, чтобы гонять длинные контексты на GPU попроще. Метод умнее, чем Streaming LLM, и быстрее, чем полные методы разреженного внимания. Ждем интеграции в vLLM или TRT-LLM, а пока, чтобы скрасить ожидание, NVIDIA собрала на HF интерактивный лидерборд популярных методик компрессии KV-кэша. Код и веса моделей-суррогатов из тестов пейпера в открытом доступе, так что нет никаких ограничений, чтобы не покрутить KVzap на каком-нибудь тестовом сетапе. @ai_machinelearning_big_data #AI#ML#LLM#KVZAP#NVIDIA
🌟NVIDIA переизобретает память: LLM, которые доучиваются прямо во время инференса Контекстные окна растут, но тут два стула: либо классическое внимание, которое питается памятью и компьютит как не в себя, либо RNN-подобные Mamba, DeltaNet, которые работают быстро, но в длинном контексте начинают плыть и терять детали. NVIDIA предлагает решение, которое пытается усидеть на обоих стульях сразу - Test-Time Training with End-to-End formulation (TTT-E2E): Обычно веса модели заморожены после тренировки. Когда вы скармливаете ей данные, она просто держит её в KV-кэше. В TTT все по-другому: контекст — это и есть обучающий датасет. Пока модель читает ваш промпт (контекст), она обновляет свои веса (если точнее - делает градиентный спуск прямо на лету), тем самым, инфа из контекста впекается в саму модель. Это позволяет сжать гигантские объемы в фиксированный размер состояния, не раздувая KV-кэш до небес. 🟡В результате - красота и волшебство: 🟢Латентность инференса становится константной. Неважно, 100 токенов в контексте или миллион — время генерации следующего токена одинаковое. 🟢На контексте 128k токенов — ускорение в 2.7x по сравнению с Attention (на H100). На 2M токенов — ускорение в 35 раз. 🟢В отличие от Mamba и других RNN, качество не проседает на длинных дистанциях. TTT держит планку на уровне полного внимания. 🟡Разумеется, есть куча пунктов со звездочкой 🟠Трейн - сложный. Чтобы модель могла так лихо учиться на лету, её нужно спечиальным образом претрейнить. Этот процесс сейчас в 3.4x медленнее, чем обычное обучение. 🟠Метод требует вычисления градиентов от градиентов во время обучения. FlashAttention из коробки сейчас это не поддерживает, нужны кастомные ядра или костыли. 🟠Cам процесс поедания контекста при инференсе требует вычислений во время префилл-фазы. По итогу, NVIDIA сравнивает RAG с блокнотом, а свой TTT — с реальным обновлением нейронных связей мозга. Если есть желание покопаться в методике и проникнуться идеей - код и пейпер в открытом доступе. 🟡Статья 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#LLM#TTTE2E#NVIDIA
🖥NVIDIA представила новое открытое семейство моделей Nemotron 3 ✔️Nemotron 3 Nano - это универсальная модель для рассуждений и чата, ориентированная на локальный запуск. Ключевые характеристики: - MoE-архитектура: 30B параметров всего, ~3.5B активных - Контекст до 1 миллиона токенов - Гибридная архитектура: - 23 слоя Mamba-2 + MoE - 6 attention-слоёв - Баланс между скоростью и качеством рассуждений Требования: - необходимо около 24 ГБ видеопамяти для локального запуска Модель хорошо подходит для длинных диалогов, анализа документов и reasoning-задач Интересный пример того, как MoE и Mamba начинают реально снижать требования к железу, сохраняя масштаб контекста и качество. ✔️Nemotron 3 Super и Nemotron 3 Ultra значительно превосходят Nano по масштабу - примерно в 4 раза и 16 раз соответственно. Но ключевой момент здесь не просто в размере моделей, а в том, как NVIDIA удалось увеличить мощность без пропорционального роста стоимости инференса. Для обучения Super и Ultra используется NVFP4 и новая архитектура Latent Mixture of Experts. Она позволяет задействовать в четыре раза больше экспертов при той же стоимости инференса. По сути, модель становится «умнее» за счёт более гибкого выбора экспертов, а не за счёт постоянной активации всех параметров. Дополнительно применяется Multi-Token Prediction, что ускоряет обучение и улучшает качество рассуждений на длинных последовательностях. Это особенно важно для agentic и multi-agent сценариев, где модели работают с длинным контекстом и сложными цепочками решений. NVIDIA публикует не только веса, но и данные для предобучения и постобучения, а также технические детали, которые объясняют, почему эти модели одновременно быстрые и сильные. Такой уровень открытости - редкость для моделей этого масштаба и хороший сигнал для индустрии. 🟡Release: https://developer.nvidia.com/blog/inside-nvidia-nemotron-3-techniques-tools-and-data-that-make-it-efficient-and-accurate/ 🟡Guide: https://docs.unsloth.ai/models/nemotron-3 🟡GGUF: https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF 🟡lmstudio: https://lmstudio.ai/models/nemotron-3 @ai_machinelearning_big_data #AI#LLM#NVIDIA#Nemotron3#OpenSource#MachineLearning
🚨 The Information: DeepSeek тайно использует *запрещённые Nvidia Blackwell GPU* для обучения своей следующей модели По данным The Information, DeepSeek тренирует новое поколение своей модели на *тысячах* Blackwell-чипов, которые формально запрещены к поставкам в Китай. Схема выглядит так: серверы с GPU сначала устанавливают и проверяют в «фантомных» дата-центрах за рубежом, после чего их разбирают, декларируют как другое оборудование и снова собирают уже в китайских дата-центрах. Схема показывает, насколько неэффективными остаются экспортные ограничения США, даже несмотря на давление Вашингтона и недавние обвинения в контрабанде против посредников. Nvidia в спешке внедряет механизмы отслеживания местоположения GPU, которые могут фактически «отключать» нелегально ввезённые чипы. Интересное следствие: Китай проявляет слабый интерес к официально разрешённому H200, что может быть связано с тем, что у ведущих игроков уже есть доступ к более мощным - пусть и нелегальным - Blackwell. https://www.theinformation.com/articles/deepseek-using-banned-nvidia-chips-race-build-next-model @ai_machinelearning_big_data #ai#news#Nvidia
⚡️Отличный ресурс, если хотите глубже понять, как работает параллельное исполнение на GPU. Документация NVIDIA PTX раскрывает низкоуровневую модель выполнения: устройство команд, иерархию потоков, блоков, варпов, регистров и видов памяти. Это базовый материал, без которого сложно разобраться, почему ядра GPU ведут себя именно так, как ведут, и как правильно писать высокопроизводительный код под CUDA. Ссылка: https://docs.nvidia.com/cuda/parallel-thread-execution @ai_machinelearning_big_data #nvidia
Hashtags
🌟ToolOrchestra: буст ИИ-потенциала за счет координации моделей и инструментов. NVIDIA совместно с Университетом Гонконга разработала ToolOrchestra - методику обучения дирижеров для ИИ-агентов, и выпустила на ее основе модель Orchestrator-8B. Это модель, базирующаяся на архитектуре Qwen3 предназначена для оркестрации других моделей и инструментов. Вместо того чтобы решать задачу в одиночку, модель чередует этапы рассуждения с вызовом внешних инструментов. В ее арсенале поисковые движки, интерпретаторы кода и другие LLM, от узкоспециализированных математических до универсальных гигантов Claude и Llama-Nemotron. Обучение проводилось с помощью GRPO, который поощрял модель не только за точность, но и за экономическую эффективность. В результате решение получилось в 2,5 раза быстрее и на 70% дешевле в эксплуатации, чем использование одной лишь флагманской модели для всех этапов задачи, а сама Orchestrator-8B набрала 37,1% в сложнейшем бенчмарке Humanity's Last Exam , обойдя GPT-5 (35,1%). 📌Лицензирование кода : Apache 2.0 License. 📌Лицензирование модели: NVIDIA License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🟡Датасет 🖥GitHub @ai_machinelearning_big_data #AI#ML#LLM#Orchestrator#NVIDIA
Hashtags
🖥 NVIDIA опубликовали гайд: как масштабировать биологическиемодели. Всё сводится к трём ключевым идеям: 1) Использовать Transformer Engine подменяет стандартные блоки на оптимизированные версии: меньше памяти, быстрее матричные операции, поддержка FP8/FP4. Это сразу увеличивает скорость обучения и инференса. 2) Масштабировать обучение до миллиардов параметров Через FSDP и гибридные режимы параллелизма можно разнести модель по нескольким GPU или узлам. И главное, конфигурация уже готова, не нужно собирать всё вручную. 3) Экономить память за счёт sequence packing Обычно биологические последовательности сильно различаются в длине, и половина батча забита паддингами. Packing позволяет «сжимать» батч, убирая пустые токены, итог: выше скорость, меньше VRAM. Писать CUDA-ядра вручную никто не хочет. BioNeMo Recipes позволяют использовать привычный стек PyTorch + HuggingFace, но при этом получать производительность уровня «больших» фреймворков. https://developer.nvidia.com/blog/scale-biology-transformer-models-with-pytorch-and-nvidia-bionemo-recipes/ @ai_machinelearning_big_data #NVIDIA
Hashtags