TGTGInsighttelegram intelligenceLIVE / telegram public index
← GZ学习频道

TGINSIGHT SIMILAR POSTS

Find similar content

Source channel @olddriverGDstudy · Post #49 · Mar 24

江湖舔狗传 江湖者,江湖也! 各兄弟五湖四海汇聚一堂,为的是个情字,讲的是个义字,说的是个道理。 江湖上无数前辈好汉,忍饥挨饿,夜以继日,通宵达旦,上下求索,陷过无数的坑,踏破无数双鞋换得了有限的几个极品资源,未曾敢占为己有,而是毫无保留,无私公布奉献。 这一切为什么?为的是天下草根、屌丝们,不受仙人跳之苦,不遭各种骗费之难,不枉花了辛苦搬砖的银两盘缠,这是多么高尚的精神,多么高贵的品质啊! 江湖就是江湖,林子大了什么鸟儿都有,舔狗们也像病毒般出没,为害人间。这些禽兽毫无尊严、毫无底线,从溜须拍马、到阿谀奉承,从冷屁股到甜盘子全方位无死角。 舔狗,做着劝婊子从良的梦,抱着救风尘女子出火坑的“崇高”的性幻想,岂不知自己已是婊子口中的笑话! 江湖有江湖的规矩,江湖有江湖的原则,江湖有江湖的风貌,江湖有江湖的脾气。 我知舔狗是死不光的,这一车死光了,下一车还在路上。 但舔狗永远不过是个道具而已,又何必自作多情。 舔狗,你听,电话声已响起,你的钟到了!闭上臭嘴,滚出去把门关上! 作者:41秒哥 标签:#语录

Hashtags

Results

1 similar post found

Search: #3drecon

当前筛选 #3drecon清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #7989 · 07/09/2025, 11:00 AM

VGGT: Visual Geometry Grounded Transformer Долгие годы создание трехмерных моделей из набора фотографий было уделом сложных и медленных алгоритмов вроде Structure-from-Motion. Этот процесс напоминает многоэтапный конвейер: найти ключевые точки, сопоставить их между кадрами, триангулировать, а затем долго и мучительно оптимизировать геометрию всей сцены. Инженеры из компании Марка Цукерберга и Оксфордского университета решили, что пришло время отдать всю эту работу одной нейросети. И, кажется, у них получилось. Их разработка, VGGT (Visual Geometry Grounded Transformer), и это, по сути, первая настоящая фундаментальная модель для 3D-реконструкции. Она не просто ускоряет старые процессы, а полностью меняет парадигму, превращая сложный многоступенчатый пайплайн в вызов одной функции. Вы просто скармливаете ему от одной до сотен фотографий, а модель за несколько секунд выдает полный набор 3D-атрибутов: точные параметры каждой камеры, карты глубины, плотное облако точек и даже траектории движения точек по всей последовательности изображений. И все это за один проход, без какой-либо итеративной оптимизации. Под капотом у VGGT - трансформер на 1.2 миллиарда параметров с механизмом попеременного внимания. Модель то «всматривается» в детали каждого отдельного кадра, то «окидывает взглядом» всю сцену целиком, анализируя связи между разными ракурсами. Это позволяет ей одновременно понимать и локальный контекст, и глобальную геометрию. Даже в «сыром» виде, без постобработки, VGGT опережает DUSt3R и MASt3R: 0.2 секунды против почти 10 секунд. Но самое интересное начинается, когда на выходные данные VGGT «накладывают» быструю классическую оптимизацию Bundle Adjustment. Этот гибридный подход бьет все рекорды, устанавливая новый стандарт качества в задачах оценки поз камер и реконструкции. ⚠️ На одной H100 с Flash Attention 3 обработка 1 входного изображения занимает 0.04 сек при потреблении VRAM 1.88 ГБ, 10 изображений - 0.14 сек и 3.63 ГБ, 50-ти - всего 1.04 сек при 11.41 Гб, а 200 изображений - 8.57 сек с 40.63 Гб. 📌Лицензирование: CC-BY-NC-4.0 License. 🟡Страница проекта 🟡Модель 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#Transformer#3DRecon#VGGT