TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват23,200Просмотры последних постов
Последние посты

Последние посты

Тег: #agibot · 1 постов

当前筛选 #agibot清除筛选

Опубликован 3 сент.

🌟Genie Envisioner: платформа, которая учит роботов действовать, просто смотря видео. Genie Envisioner (GE) — унифицированная платформа от AgiBot Genie Team, где обучение, симуляция и оценка объединены в рамках одной видеогенеративной модели. 🟡GE-Base В основе всей системы лежит GE-Base, диффузионная видеомодель, натренированная на огромном датасете из миллиона эпизодов реальных манипуляций, записанных с нескольких камер, общей продолжительностью почти 3000 часов. Модель училась предсказывать следующие кадры видео на основе текстовой инструкции и предыдущих наблюдений, таким образом формируя внутреннее представление о физике мира и динамике объектов. 🟡GE-Act Но предсказывать видео - это одно, а выполнять действия - совсем другое. За это отвечает второй компонент, GE-Act. Это легковесный модуль на 160 млн. параметров, который подключается к GE-Base и преобразует ее внутренние представления в конкретные команды для моторов робота. Проще говоря, он переводит предсказания в исполняемые траектории. Причем делает это быстро: на генерацию последовательности из 54 шагов уходит всего 200 миллисекунд на NVIDIA RTX 4090, что позволяет использовать систему в реальном времени. 🟡GE-Sim Замыкает троицу компонент GE-Sim - нейронный симулятор, построенный на той же GE-Base. Он позволяет прогонять тысячи симуляций в час для оценки политик без использования реального железа. Чтобы объективно измерять качество таких видео-симуляторов, авторы разработали собственный бенчмарк EWMBench. Он оценивает не только визуальную правдоподобность, но и физическую консистентность и соответствие действий инструкциям. На этом бенчмарке GE-Base ожидаемо обошла все современные генеративные видеомодели: Kling, OpenSora и COSMOS, набрав итоговый балл 4.70, в то время как ближайший соперник, Kling, получил 3.87. 🟡Страница проекта 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#Robotics#GenieEnvisioner#AgiBot

23,200 views