TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват55,400Просмотры последних постов
Последние посты

Последние посты

Тег: #video · 2 постов

当前筛选 #video清除筛选

Опубликован 3 апр.

🔥Netflix выложили open-source модель для удаления объектов из видео с сохранением логики сцены Это не просто «удалить объект из видео». Модель удаляет объект и пересчитывает всю физику сцены. Удалил человека → гитара падает сама убрал домино → цепочка не падает убрал машину → аварии не происходит ИИ буквально отвечает на вопрос: «что было бы, если этого объекта не существовало» Под капотом: - diffusion + transformer (на базе CogVideoX) - анализ взаимодействий объектов - генерация новой реальности, а не просто замазка И это главное отличие от всего, что было раньше. Раньше: замазали объект → сцена ломается Теперь: удалили объект → сцена остаётся логичной Требования, правда, не слабые: GPU от ~40GB VRAM (A100) Репа: https://github.com/Netflix/void-model HF: https://huggingface.co/spaces/sam-motamed/VOID @ai_machinelearning_big_data #Netflix#ai#video

28,100 views

Опубликован 8 июл.

🌟EX-4D: генерация видео с экстремальными движениями камеры. EX-4D - совместная разработка ByteDance и Pico, которая предлагает элегантное решение проблемы генерации экстремальных ракурсов камеры для видео. Методика позволяет генерировать видео с амплитудой угла камеры от -90° до 90°, опираясь на новый тип геометрического представления, Depth Watertight Mesh (DW-Mesh). В отличие от стандартных методов, которые строят 3D-сцену только из видимых поверхностей, DW-Mesh создает трехмерный замкнутый меш на основе данных о глубине сцены. Он моделирует не только то, что видит камера, но и пытается логически завершить скрытые от нее области. По сути, система строит цельный геометрический каркас сцены, который сохраняет свою форму даже при взгляде с самых неожиданных углов. Это предотвращает появление разрывов и искажений, когда ранее невидимая часть объекта попадает в кадр. При создании EX-4D использовали уникальную стратегию обучения, которая не требует многоракурсных видеосетов. Разработчики обошли эту проблему, заставив модель создавать обучающие данные для самой себя. Используя построенный DW-Mesh, система генерирует маски, симулируя, какие части сцены были бы скрыты при других ракурсах. Этот подход с двумя компонентами, Rendering Mask и Tracking Mask, имитирует реальные условия съемки с разных точек и дает временную согласованность маскировки, обучая модель правильно «додумывать» геометрию. Вся эта система работает на базе видеомодели Wan2.1 (рекомендуют версию 14B 480p), но не требует ее полной перетренировки. Геометрическая информация от DW-Mesh интегрируется с помощью LoRA-адаптера, он выступает мостом между меш-каркасом и генеративной нейросетью. В тестах EX-4D обходит TrajectoryCrafter и ReCamMaster, особенно на больших углах. В пользовательских тестах 70 % участников отдали предпочтение видео, сгенерированным EX-4D, отметив физическую консистентность и высокое качество картинки. ⚠️ Локальный запуск потребует значительных ресурсов, особенно для видео высокого разрешения. Помимо Wan2.1, самой EX-4D, еще понадобятся пакеты nvdiffrast от NVlabs и DepthCrafter от Tencent. В планах: оптимизация инференса, поддержка 1К и 2К разрешения и новые техники уточнения мешей. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#EX4D#ByteDance#Video

27,300 views