Post content
Создана ML-модель MindJourney, которая решает задачи в 3D-пространстве Исследователи из UMass создалиMindJourney — гибридная система, объединяющая Vision-Language Model (VLM) и модель, имитирующую 3D-физику и движение камеры То есть по сути, один кадр превращается в целое путешествие, что сильно улучшает понимание 3D-пространства у ML У этой работы новый подход к пространственному ML, а также есть архитектурная новизна — комбинация VLM + world model. Более того можно использовать в робототехнике, AR/VR, автономных системах Как это работает? Воображение - VLM и 3D-модель мира совместно "обходят" сцену, генерируя разные ракурсы Наблюдение - модель собирает подсказки из этого виртуального тура Ответ - используя дополнительный контекст, VLM дает более точный ответ