TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват29,400Просмотры последних постов
Последние посты

Последние посты

Тег: #4d · 1 постов

当前筛选 #4d清除筛选

Опубликован 16 июл.

🌟MoVieS: Синтез 4D-видов с учетом движения. ByteDance в соавторстве с Пекинским университетом и Карнеги Меллон разработали MoVieS, feed-forward модель, которая из обычного монокулярного видео за секунду синтезирует полноценную 4D-сцену, объединяя в себе геометрию, внешний вид и, что самое важное, движение. В основе метода лежит идея представления динамической сцены с помощью «динамических сплэттер-пикселей». Если вы знакомы с 3D Gaussian Splatting, то поймете сразу: модель представляет каждый пиксель входного видео как гауссов примитив в 3D-пространстве. Новизна MoVieS в том, что она не просто определяет их статичные параметры (положение, цвет, прозрачность), но и предсказывает вектор их движения во времени. Иными словами, для каждой частицы в сцене модель знает, где она будет в любой заданный момент. Архитектурно MoVieS построена на геометрически предобученном трансформере VGGT, который обрабатывает кадры видео. Далее в дело вступают три специализированные «головы»: 🟠Depth Head - предсказывает карту глубины; 🟠Splatter Head - отвечает за атрибуты самих гауссовых сплэттеров для рендеринга; 🟢Motion Head - самая главная, оценивает смещение каждого примитива. Такой единый фреймворк позволяет обучать модель на самых разнородных датасетах: где-то есть разметка глубины, где-то - трекинг точек, а где-то - только видео. MoVieS - это еще про скорость. Согласно техотчету, на генерацию сцены уходит меньше секунды (0.93 с), тогда как у альтернативных методов на это уходят десятки минут. При этом качество на бенчмарках динамических сцен (DyCheck и NVIDIA) либо на уровне, либо превосходит SOTA решения. Но самое интересное - это zero-shot возможности. Модель, обученная по сути на задаче синтеза новых ракурсов, внезапно оказывается способна без всякого дополнительного обучения сегментировать движущиеся объекты и оценивать scene flow (попиксельный поток в 3D). Достаточно просто посмотреть на предсказанные векторы движения. ⚠️Кода для инференса, обучения и чекпоинтов пока нет, но обещают. 📌Лицензирование: MIT License. 🟡Страница проекта 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#4D#MoVieS#ByteDance

29,400 views