TGTGInsightаналитика telegramLIVE / telegram public index
← Machinelearning

TGINSIGHT SIMILAR POSTS

Найти похожее

Источник @ai_machinelearning_big_data · Post #8822 · 21 окт.

🌟NVIDIA OmniVinci: омнимодальная модель, которая бьет рекорды. OmniVinci - модель, способная одновременно понимать и обрабатывать разные типы информации: текст, изображения, видео и звук. Модель крайне эффективна, несмотря на то, что была обучена всего на 200 млрд. токенов (что в 6 раз меньше, чем у Qwen2.5-Omni - 1.2 трлн.). Это стало возможным благодаря архитектурным фишкам и тщательному подходу к подготовке данных. В основе OmniVinci 3 компонента: 🟢Temporal Embedding Grouping (TEG) - упорядочивает эмбеддинги из видео и аудио по временным меткам. 🟢Constrained Rotary Time Embedding (CRTE) - кодирует уже абсолютное время. 🟢OmniAlignNet - выравнивает эмбеддинги видео и аудио в общем латентном пространстве с помощью контрастивного обучения. Абляция показала, что вклад каждого элемента играет свою важную роль: базовая модель с простой конкатенацией токенов набирает в среднем 45.51 балла. Добавление TEG поднимает результат до 47.72 (+2.21), CRTE — до 50.25 (+4.74 от базовой), а финальный слой в виде OmniAlignNet доводит средний балл до 52.59, что в сумме дает прирост в 7.08 пункта. Данные для обучения - 24 млн. диалогов, которые пропустили через систему, где отдельная LLM анализирует и объединяет описания из нескольких модальностей, создавая единую и корректную аннотацю. Итоговый датасет на 36% состоял из изображений, на 21% из звуков, на 17% из речи, 15% - из смешанных данных и на 11% из видео. В бенчах OmniVinci обошла всех конкурентов. На Worldsense модель набрала 48.23 балла против 45.40 у Qwen2.5-Omni. На Dailyomni - 66.50 против 47.45. В аудио-задачах OmniVinci тоже молодец: 58.40 в MMAR и 71.60 в MMAU. В распознавании речи модель показала WER 1.7% на датасете LibriSpeech-clean. Применение модели протестили на практике. В задаче классификации дефектов полупроводниковых пластин, OmniVinci достигла точности 98.1%, что лучше, чем у специализированной NVILA (97.6%), и у более крупную 40-миллиардную VILA (90.8%). 📌Лицензирование кода : Apache 2.0 License. 📌Лицензирование: NVIDIA One Way Noncommercial License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#NVIDIA#OmniVinci

Результаты

Найдено 10 похожих постов

⚙️Nvidia на мероприятии GTC 2023представила набор облачных сервисов AI Foundations для разработки искусственного интеллекта. По данным техгиганта, с его помощью компании смогут создавать, совершенствовать и использовать крупноязыковые и генеративные ИИ-алгоритмы, обучая их на собственных данных, для решения уникальных задач. 🪄 В AI Foundations входят языковой сервис NeMo и платформа Picasso для генерации изображений, видео и 3D. Оба продукта включают предварительно обученные модели, API-интерфейсы, оптимизированные механизмы логического вывода, фреймворки для обработки данных и поддержку инженерного персонала Nvidia. На GTC 2023 компания также представила ряд других ИИ-систем. Среди них: 📌 облако DGX Cloud, позволяющее арендовать мощную вычислительную ИИ-инфраструктуру и ПО Nvidia через браузер; 📌 платформы логического вывода L4 для повышения производительности видео, L40 — создания 2D/3D изображений, NVL — развертывания больших языковых моделей и Grace Hopper — разработки рекомендательных систем; 📌 система Isaac Sim для совместной работы над умными устройствами; 📌 рабочий процесс Omniverse для автопроизводителей; Также компания открыла клиентам доступ к ИИ-ускорителям H100 Hopper. #Nvidia

Hashtags

🪄Nvidiaпредставила ИИ-генератор трехмерных объектов по тексту Magic3D. Система базируется на алгоритме eDiffii. Сперва модель преобразовывает запрос в изображения низкого разрешения, которые затем обрабатываются в исходное 3D-представление с помощью фреймворка Instant NGP. 🖼 После этого ИИ-алгоритм DMTet извлекает трехмерную сетку более высокого качества. Это служит шаблоном для дальнейших изображений, масштаб которых увеличивается. По словам Nvidia, в результате получается трехмерная модель объекта размером 512×512 пикселей, которую можно импортировать и визуализировать в стандартном графическом ПО. 💬 В компании заявили, что Magic3D по скорости и разрешению превосходит ИИ-генератор Google DreamFusion. #Nvidia

Hashtags

⚙️Nvidia задействовала графические процессоры и алгоритмы машинного обучения для проектирования новых видеоускорителей. В компании утвеждают, что ИИ можно эффективно применять в таких областях проектирования GPU, как картирование падения напряжения, прогнозирование паразитных явлений, проблемы размещения и маршрутизации, автоматизация стандартной миграции ячеек. 📉 Картирование падения напряжения показывает инженерам, как распределяется мощность в новых процессорах. По данным Nvidia, использование ИИ позволило сократить время произведения расчетов с трех часов до трех секунд с точностью 94%. Также инженеры использовали графовые нейросети для анализа проблемы размещения и маршрутизации компонентов процессора, так как неправильное выполнение этого условия приведет к «пробкам данных». ⚒ Кроме того, переход с 7-нм на 5-нм техпроцесс производства чипов требовал больших трудозатрат, а обучение с подкреплением помогло ускорить этот этап и уменьшить количество ошибок в правилах проектирования. #Nvidia

Hashtags

🖼Nvidiaвыпустила инструмент Canvas для генерации фотореалистичных пейзажей по наброску, основанный на нейросети GauGAN. Для создания изображения пользователю доступны 15 материалов, такие как трава, туман или снег, а также девять стилей, в зависимости от которых меняется освещение и другие детали. Изображение можно разделить на слои, чтобы по отдельности редактировать каждую часть картинки. 🖥 Опробовать Canvas могут все желающие, однако для его работы требуется видеокарта Nvidia c ядрами RT для трассировки лучей из серии RTX. #Nvidia

Hashtags

👀NVIDIAоткроет доступ к облачному суперкомпьютеру DGX SuperPOD для разработки искусственного интеллекта по подписке за $90 000 в месяц. Пользователям сервиса установят готовое комплексное решение для центров обработки данных, что повысит производительность их инфраструктуры. DGX SuperPOD обладает вычислительной мощностью в 100 петафлопс. Аналогичные суперкомпьютеры используются в немецком исследовательском центре ИИ для анализа спутниковых и аэроснимков, а также в университете Флориды для молекулярного моделирования белков с квантовой точностью. 📆 Сервис станет доступен летом 2021 года. #NVIDIA

Hashtags

🎮 Nvidia запатентовала технологию машинного обучения для тактильного фидбека в игровых контроллерах. На сегодняшний день разработчики видеоигр заранее программируют моменты срабатывания тактильной отдачи. Вместо этого специалисты Nvidia предлагают обучить искусственный интеллект распознавать «особые» моменты внутри игры в режиме реального времени и самостоятельно выбирать варианты обратной связи с игроком. ⚙️ О том, как будет работать технология в патенте практически ничего не сказано. Вероятно, обработка алгоритмов будет происходить на CPU, графическом процессоре, либо же на комбинации аппаратного и программного обеспечения. #Nvidia

Hashtags

Nvidia совершила значительный скачок в «ловкости» роботов благодаря ИИ-инструменту Eureka, который обучает механизмы сложным навыкам вроде вращения ручкой. Нейросеть также научила роботов открывать ящики и шкафы, бросать и ловить мячи, использовать ножницы и выполнять другие задачи. Eureka основана на большой языковой модели GPT-4 от OpenAI Сэма Альтмана и использует генеративный ИИ для написания кода. #Nvidia#роботы

Earth&Climate Tech

@earth_climate_tech · Post #401 · 19.10.2023, 16:00

​​Polymathic - междисциплинарный ИИ Ох, какая классная межуниверситетская инициатива - Polymathic🔥. Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п. В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков. На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI. #AI#ML

Hashtags

🖼Nvidiaпредставила технологию DLDSR на базе ИИ для повышения качества изображений в играх. Инструмент отрисовывает картинку в более высоком качестве, а затем масштабирует ее в соответствии с разрешением монитора. Он повышает детализацию, сглаживает края объектов и сокращает мерцание кадров. По данным компании, алгоритм превосходит существующую технологию динамического суперразрешения (DSR) примерно в два раза. 🎮 DLDSR задействует специализированные тензорные ядра и может работать только с видеокартами серии GeForce RTX, однако будет поддерживаться в большинстве игр. #Nvidia#игры

🎮Nvidiaобновила технологию ИИ-апскейлинга DLSS. Теперь она качественнее отображает перемещающиеся объекты. В версии 2.3 алгоритм искусственного интеллекта «более разумно» использует векторы движения, применяемые для перепроектирования предыдущего кадра игры и оптимального вычисления того, как должна выглядеть выходная картинка. ☝️ Это позволяет повысить детализацию перемещающихся объектов и стабилизацию видео, а также снизить эффекты двоения изображения и мерцания частиц. #Nvidia#игры