🌟NVIDIA научила роботов-манипуляторов учиться на собственных ошибках при захвате объектов.
Научить робота уверенно брать предметы - это, кажется, вечная тема в робототехнике. Несмотря на десятилетия исследований, надежные и универсальные системы захвата до сих пор остаются скорее теорией, чем реальностью.
Стоит копнуть глубже стандартных демо, и выясняется, что на сложных бенчмарках, FetchBench например, точность лучших систем едва дотягивает до 20%. Это фундаментальный барьер, мешающий внедрять роботов в реальные, неструктурированные среды.
🟡И вот, похоже, NVIDIA предложила решение этой проблемы.
GraspGen - фреймворк для генерации 6-DOF захватов, который не только показывает SOTA результаты, но и вводит новый, крайне интересный подход к обучению.
В его основе лежит связка из генератора на базе Diffusion Transformer и дискриминатора, знакомая всем по GAN-ам архитектура, но с важным отличием.
Генератор, получив на вход облако точек объекта, предлагает множество вариантов захвата, а дискриминатор оценивает их качество и отсеивает неудачные.
И вот тут-то и кроется основная идея, которую в NVIDIA назвали «On-Generator Training». Вместо того чтобы обучать дискриминатор на заранее собранном офлайн-датасете из "хороших" и "плохих" захватов, его учат непосредственно на тех ошибках, которые генерирует его подопечный - диффузионная модель.
Иными словами, дискриминатор становится экспертом не в захватах вообще, а в типичных промахах конкретного генератора. Он учится распознавать и отбраковывать именно те ложноположительные варианты, которые сам генератор считает удачными, но которые на самом деле приведут к провалу. Такой подход создает мощную и целенаправленную обратную связь.
🟡Подкреплено все это работой с данными.
Разработчики выпустили симулированный датасет, содержащий более 53 млн. примеров захватов для 3 разных типов манипуляторов, включая параллельные захваты и вакуумные присоски.
🟡На практике, в тестах, цифры говорят сами за себя.
В симуляции на сете ACRONYM GraspGen показывает AUC (площадь под кривой точность-покрытие) 0.94, это больше ближайших конкурентов на 48%.
На комплексном бенче FetchBench он обошел предыдущих лидеров M2T2 и Contact-GraspNet на 7.8% и 16.9% соответственно.
Но самое главное - это тесты на реальном железе. В экспериментах с роботом UR10 в зашумленной среде GraspGen достиг общей успешности в 81.3%, в то время как M2T2 и AnyGrasp показали лишь 52.6% и 63.7%.
🟡NVIDIA выложила в открытый доступ весь инструментарий.
Код, веса моделей и датасет уже доступны на GitHub и Hugging Face.
Авторы позаботились об энтузиастах: есть подробные инструкции по установке через Docker или pip, готовые демо-скрипты, позволяющие визуализировать захваты для своих облаков точек или 3D-моделей буквально в несколько команд.
Более того, GraspGen изначально спроектирован как модульная и расширяемая система. Разработчики предоставляют подробный туториал, который объясняет, как генерировать данные и обучать модели для совершенно новых объектов и, что важнее, новых типов манипуляторов, реализуя принцип BYOD.
🟡В планах на будущее
Интеграция с симулятором Isaac Lab для еще более продвинутой генерации данных и возможность дообучения на реальных данных.
📌Лицензирование кода: NVIDIA Research Licensing.
📌Лицензирование датасета : CC-BY-4.0 License.
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Датасет
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#Robotics#GraspGen#NVIDIA
⚙️Nvidia на мероприятии GTC 2023представила набор облачных сервисов AI Foundations для разработки искусственного интеллекта.
По данным техгиганта, с его помощью компании смогут создавать, совершенствовать и использовать крупноязыковые и генеративные ИИ-алгоритмы, обучая их на собственных данных, для решения уникальных задач.
🪄 В AI Foundations входят языковой сервис NeMo и платформа Picasso для генерации изображений, видео и 3D. Оба продукта включают предварительно обученные модели, API-интерфейсы, оптимизированные механизмы логического вывода, фреймворки для обработки данных и поддержку инженерного персонала Nvidia.
На GTC 2023 компания также представила ряд других ИИ-систем. Среди них:
📌 облако DGX Cloud, позволяющее арендовать мощную вычислительную ИИ-инфраструктуру и ПО Nvidia через браузер;
📌 платформы логического вывода L4 для повышения производительности видео, L40 — создания 2D/3D изображений, NVL — развертывания больших языковых моделей и Grace Hopper — разработки рекомендательных систем;
📌 система Isaac Sim для совместной работы над умными устройствами;
📌 рабочий процесс Omniverse для автопроизводителей;
Также компания открыла клиентам доступ к ИИ-ускорителям H100 Hopper.
#Nvidia
🪄Nvidiaпредставила ИИ-генератор трехмерных объектов по тексту Magic3D.
Система базируется на алгоритме eDiffii. Сперва модель преобразовывает запрос в изображения низкого разрешения, которые затем обрабатываются в исходное 3D-представление с помощью фреймворка Instant NGP.
🖼 После этого ИИ-алгоритм DMTet извлекает трехмерную сетку более высокого качества. Это служит шаблоном для дальнейших изображений, масштаб которых увеличивается.
По словам Nvidia, в результате получается трехмерная модель объекта размером 512×512 пикселей, которую можно импортировать и визуализировать в стандартном графическом ПО.
💬 В компании заявили, что Magic3D по скорости и разрешению превосходит ИИ-генератор Google DreamFusion.
#Nvidia
⚙️Nvidia задействовала графические процессоры и алгоритмы машинного обучения для проектирования новых видеоускорителей.
В компании утвеждают, что ИИ можно эффективно применять в таких областях проектирования GPU, как картирование падения напряжения, прогнозирование паразитных явлений, проблемы размещения и маршрутизации, автоматизация стандартной миграции ячеек.
📉 Картирование падения напряжения показывает инженерам, как распределяется мощность в новых процессорах. По данным Nvidia, использование ИИ позволило сократить время произведения расчетов с трех часов до трех секунд с точностью 94%.
Также инженеры использовали графовые нейросети для анализа проблемы размещения и маршрутизации компонентов процессора, так как неправильное выполнение этого условия приведет к «пробкам данных».
⚒ Кроме того, переход с 7-нм на 5-нм техпроцесс производства чипов требовал больших трудозатрат, а обучение с подкреплением помогло ускорить этот этап и уменьшить количество ошибок в правилах проектирования.
#Nvidia
🖼Nvidiaвыпустила инструмент Canvas для генерации фотореалистичных пейзажей по наброску, основанный на нейросети GauGAN.
Для создания изображения пользователю доступны 15 материалов, такие как трава, туман или снег, а также девять стилей, в зависимости от которых меняется освещение и другие детали.
Изображение можно разделить на слои, чтобы по отдельности редактировать каждую часть картинки.
🖥 Опробовать Canvas могут все желающие, однако для его работы требуется видеокарта Nvidia c ядрами RT для трассировки лучей из серии RTX.
#Nvidia
👀NVIDIAоткроет доступ к облачному суперкомпьютеру DGX SuperPOD для разработки искусственного интеллекта по подписке за $90 000 в месяц.
Пользователям сервиса установят готовое комплексное решение для центров обработки данных, что повысит производительность их инфраструктуры.
DGX SuperPOD обладает вычислительной мощностью в 100 петафлопс. Аналогичные суперкомпьютеры используются в немецком исследовательском центре ИИ для анализа спутниковых и аэроснимков, а также в университете Флориды для молекулярного моделирования белков с квантовой точностью.
📆 Сервис станет доступен летом 2021 года.
#NVIDIA
🎮 Nvidia запатентовала технологию машинного обучения для тактильного фидбека в игровых контроллерах.
На сегодняшний день разработчики видеоигр заранее программируют моменты срабатывания тактильной отдачи. Вместо этого специалисты Nvidia предлагают обучить искусственный интеллект распознавать «особые» моменты внутри игры в режиме реального времени и самостоятельно выбирать варианты обратной связи с игроком.
⚙️ О том, как будет работать технология в патенте практически ничего не сказано. Вероятно, обработка алгоритмов будет происходить на CPU, графическом процессоре, либо же на комбинации аппаратного и программного обеспечения.
#Nvidia
Polymathic - междисциплинарный ИИ
Ох, какая классная межуниверситетская инициатива - Polymathic🔥.
Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п.
В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков.
На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI.
#AI#ML
Nvidia совершила значительный скачок в «ловкости» роботов благодаря ИИ-инструменту Eureka, который обучает механизмы сложным навыкам вроде вращения ручкой. Нейросеть также научила роботов открывать ящики и шкафы, бросать и ловить мячи, использовать ножницы и выполнять другие задачи.
Eureka основана на большой языковой модели GPT-4 от OpenAI Сэма Альтмана и использует генеративный ИИ для написания кода.
#Nvidia#роботы
🖼Nvidiaпредставила технологию DLDSR на базе ИИ для повышения качества изображений в играх.
Инструмент отрисовывает картинку в более высоком качестве, а затем масштабирует ее в соответствии с разрешением монитора. Он повышает детализацию, сглаживает края объектов и сокращает мерцание кадров. По данным компании, алгоритм превосходит существующую технологию динамического суперразрешения (DSR) примерно в два раза.
🎮 DLDSR задействует специализированные тензорные ядра и может работать только с видеокартами серии GeForce RTX, однако будет поддерживаться в большинстве игр.
#Nvidia#игры
🎮Nvidiaобновила технологию ИИ-апскейлинга DLSS. Теперь она качественнее отображает перемещающиеся объекты.
В версии 2.3 алгоритм искусственного интеллекта «более разумно» использует векторы движения, применяемые для перепроектирования предыдущего кадра игры и оптимального вычисления того, как должна выглядеть выходная картинка.
☝️ Это позволяет повысить детализацию перемещающихся объектов и стабилизацию видео, а также снизить эффекты двоения изображения и мерцания частиц.
#Nvidia#игры