TGTGInsighttelegram intelligenceLIVE / telegram public index
← GZ学习频道

TGINSIGHT SIMILAR POSTS

Find similar content

Source channel @olddriverGDstudy · Post #13 · Mar 17

#秀哥语录 2020.12.27【撩妹模板】#撩妹#语录 告诉你们一个小秘密 没事多去逛逛有年轻漂亮老板娘的美甲店 不要问我为什么 小姐姐 我买几瓶指甲油送给喜欢的人 买好付完钱送给老板娘 你就是我喜欢的人 你可以直白的告诉老板娘 其实我已经关注你好久了 第一次见到你 就有种心跳的感觉 我已经好多次想进来了 就是不知道怎么和你搭讪 可是 你的身影实在挥之不去 我今天忍不住了 豁出去了 就想告诉你 我真的好喜欢你 能不能加个好友

Results

1 similar post found

Search: #3drecon

当前筛选 #3drecon清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #7989 · 07/09/2025, 11:00 AM

VGGT: Visual Geometry Grounded Transformer Долгие годы создание трехмерных моделей из набора фотографий было уделом сложных и медленных алгоритмов вроде Structure-from-Motion. Этот процесс напоминает многоэтапный конвейер: найти ключевые точки, сопоставить их между кадрами, триангулировать, а затем долго и мучительно оптимизировать геометрию всей сцены. Инженеры из компании Марка Цукерберга и Оксфордского университета решили, что пришло время отдать всю эту работу одной нейросети. И, кажется, у них получилось. Их разработка, VGGT (Visual Geometry Grounded Transformer), и это, по сути, первая настоящая фундаментальная модель для 3D-реконструкции. Она не просто ускоряет старые процессы, а полностью меняет парадигму, превращая сложный многоступенчатый пайплайн в вызов одной функции. Вы просто скармливаете ему от одной до сотен фотографий, а модель за несколько секунд выдает полный набор 3D-атрибутов: точные параметры каждой камеры, карты глубины, плотное облако точек и даже траектории движения точек по всей последовательности изображений. И все это за один проход, без какой-либо итеративной оптимизации. Под капотом у VGGT - трансформер на 1.2 миллиарда параметров с механизмом попеременного внимания. Модель то «всматривается» в детали каждого отдельного кадра, то «окидывает взглядом» всю сцену целиком, анализируя связи между разными ракурсами. Это позволяет ей одновременно понимать и локальный контекст, и глобальную геометрию. Даже в «сыром» виде, без постобработки, VGGT опережает DUSt3R и MASt3R: 0.2 секунды против почти 10 секунд. Но самое интересное начинается, когда на выходные данные VGGT «накладывают» быструю классическую оптимизацию Bundle Adjustment. Этот гибридный подход бьет все рекорды, устанавливая новый стандарт качества в задачах оценки поз камер и реконструкции. ⚠️ На одной H100 с Flash Attention 3 обработка 1 входного изображения занимает 0.04 сек при потреблении VRAM 1.88 ГБ, 10 изображений - 0.14 сек и 3.63 ГБ, 50-ти - всего 1.04 сек при 11.41 Гб, а 200 изображений - 8.57 сек с 40.63 Гб. 📌Лицензирование: CC-BY-NC-4.0 License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#Transformer#3DRecon#VGGT