Post #178

@MachineLearningResearch

AML

Views36Post view count

PostedJul 2307/23/2025, 03:30 PM

Post content

Создана ML-модель MindJourney, которая решает задачи в 3D-пространстве Исследователи из UMass создалиMindJourney — гибридная система, объединяющая Vision-Language Model (VLM) и модель, имитирующую 3D-физику и движение камеры То есть по сути, один кадр превращается в целое путешествие, что сильно улучшает понимание 3D-пространства у ML У этой работы новый подход к пространственному ML, а также есть архитектурная новизна — комбинация VLM + world model. Более того можно использовать в робототехнике, AR/VR, автономных системах Как это работает? Воображение - VLM и 3D-модель мира совместно "обходят" сцену, генерируя разные ракурсы Наблюдение - модель собирает подсказки из этого виртуального тура Ответ - используя дополнительный контекст, VLM дает более точный ответ