TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват27,300Просмотры последних постов
Последние посты

Последние посты

Тег: #ex4d · 1 постов

当前筛选 #ex4d清除筛选

Опубликован 8 июл.

🌟EX-4D: генерация видео с экстремальными движениями камеры. EX-4D - совместная разработка ByteDance и Pico, которая предлагает элегантное решение проблемы генерации экстремальных ракурсов камеры для видео. Методика позволяет генерировать видео с амплитудой угла камеры от -90° до 90°, опираясь на новый тип геометрического представления, Depth Watertight Mesh (DW-Mesh). В отличие от стандартных методов, которые строят 3D-сцену только из видимых поверхностей, DW-Mesh создает трехмерный замкнутый меш на основе данных о глубине сцены. Он моделирует не только то, что видит камера, но и пытается логически завершить скрытые от нее области. По сути, система строит цельный геометрический каркас сцены, который сохраняет свою форму даже при взгляде с самых неожиданных углов. Это предотвращает появление разрывов и искажений, когда ранее невидимая часть объекта попадает в кадр. При создании EX-4D использовали уникальную стратегию обучения, которая не требует многоракурсных видеосетов. Разработчики обошли эту проблему, заставив модель создавать обучающие данные для самой себя. Используя построенный DW-Mesh, система генерирует маски, симулируя, какие части сцены были бы скрыты при других ракурсах. Этот подход с двумя компонентами, Rendering Mask и Tracking Mask, имитирует реальные условия съемки с разных точек и дает временную согласованность маскировки, обучая модель правильно «додумывать» геометрию. Вся эта система работает на базе видеомодели Wan2.1 (рекомендуют версию 14B 480p), но не требует ее полной перетренировки. Геометрическая информация от DW-Mesh интегрируется с помощью LoRA-адаптера, он выступает мостом между меш-каркасом и генеративной нейросетью. В тестах EX-4D обходит TrajectoryCrafter и ReCamMaster, особенно на больших углах. В пользовательских тестах 70 % участников отдали предпочтение видео, сгенерированным EX-4D, отметив физическую консистентность и высокое качество картинки. ⚠️ Локальный запуск потребует значительных ресурсов, особенно для видео высокого разрешения. Помимо Wan2.1, самой EX-4D, еще понадобятся пакеты nvdiffrast от NVlabs и DepthCrafter от Tencent. В планах: оптимизация инференса, поддержка 1К и 2К разрешения и новые техники уточнения мешей. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#EX4D#ByteDance#Video

27,300 views