Machinelearning (@ai_machinelearning_big_data)

Опубликован 16 июл.

🌟MoVieS: Синтез 4D-видов с учетом движения. ByteDance в соавторстве с Пекинским университетом и Карнеги Меллон разработали MoVieS, feed-forward модель, которая из обычного монокулярного видео за секунду синтезирует полноценную 4D-сцену, объединяя в себе геометрию, внешний вид и, что самое важное, движение. В основе метода лежит идея представления динамической сцены с помощью «динамических сплэттер-пикселей». Если вы знакомы с 3D Gaussian Splatting, то поймете сразу: модель представляет каждый пиксель входного видео как гауссов примитив в 3D-пространстве. Новизна MoVieS в том, что она не просто определяет их статичные параметры (положение, цвет, прозрачность), но и предсказывает вектор их движения во времени. Иными словами, для каждой частицы в сцене модель знает, где она будет в любой заданный момент. Архитектурно MoVieS построена на геометрически предобученном трансформере VGGT, который обрабатывает кадры видео. Далее в дело вступают три специализированные «головы»: 🟠Depth Head - предсказывает карту глубины; 🟠Splatter Head - отвечает за атрибуты самих гауссовых сплэттеров для рендеринга; 🟢Motion Head - самая главная, оценивает смещение каждого примитива. Такой единый фреймворк позволяет обучать модель на самых разнородных датасетах: где-то есть разметка глубины, где-то - трекинг точек, а где-то - только видео. MoVieS - это еще про скорость. Согласно техотчету, на генерацию сцены уходит меньше секунды (0.93 с), тогда как у альтернативных методов на это уходят десятки минут. При этом качество на бенчмарках динамических сцен (DyCheck и NVIDIA) либо на уровне, либо превосходит SOTA решения. Но самое интересное - это zero-shot возможности. Модель, обученная по сути на задаче синтеза новых ракурсов, внезапно оказывается способна без всякого дополнительного обучения сегментировать движущиеся объекты и оценивать scene flow (попиксельный поток в 3D). Достаточно просто посмотреть на предсказанные векторы движения. ⚠️Кода для инференса, обучения и чекпоинтов пока нет, но обещают. 📌Лицензирование: MIT License. 🟡Страница проекта 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#4D#MoVieS#ByteDance

29,400 views

Hashtags

#ai #ml #4d #movies #bytedance

Последние посты