Post #154

@MachineLearningResearch

AML

Views88Post view count

PostedJul 1707/17/2025, 05:22 PM

Post content

Интеллект надо строить на базе движений, а не поверх LLM Много метафор в языке укоренено в нашем сенсорном и двигательном опыте (советую книгу "Metaphors We Live By" от George Lakoff и Mark Johnson) Grounding Intelligence in Movement Melanie Segado, Michael L. Platt, Felipe Parodi, Jordan K. Matelsky, Eva B. Dyer, Konrad P. Kording Статья: https://arxiv.org/abs/2507.02771 Англ пост: https://arxiviq.substack.com/p/grounding-intelligence-in-movement Делать акцент на интеграцию данных из разных модальностей (видео, IMU, ЭМГ и т.д.), в строгом соблюдении биомеханических и физических ограничений, глубоком понимании контекста и обобщающей способности на разные виды существ и задачи Работа напрямую затрагивает проявление парадокса Моравека: упорную неспособность ML справляться с моторными задачами, которые тривиальны для большинства живых организмов, намечает путь к преодолению ограничений существующих систем, которым часто не хватает физической правдоподобности и понимания контекста Успех в этой области не только продвинет ключевые возможности ML в генерации и управлении, но и создаст общую основу для понимания поведения как биологических, так и искусственных систем, открывая путь к трансформационным применениям в робототехнике, медицине, нейробиологии и охране природы За последние годы ML добился ошеломляющих успехов в таких областях, как язык и зрение, однако фундаментальный аспект интеллекта — движение — по-прежнему остаётся труднодостижимым Там где перемещаются биологические системы, самые передовые модели ML проваливают простейшие физические взаимодействия Движение должно стать основной целью моделирования в ML и собственных фундаментальных моделей Сейчас дегенеративные модели создают физически неправдоподобные результаты Оценщики поз и распознаватели действий могут описать, движение, но не понимают, «зачем» оно происходит — его намерение, качество исполнения или критически важный контекст, который придаёт движению смысл Агенты, обученные с помощью обучения с подкреплением (RL), выучивают стратегии, которые плохо генерализуются, обобщаемое понимание движения остаётся недостижимым Простого масштабирования видеогенераторов или мировых моделей недостаточно, даже при огромных размерах, будут трудности с физической реалистичностью, интерпретируемостью и обобщением на другие виды, если они не будут специально разработаны с тщательно подобранными ограничениями и биомеханическими данными Это отличает предложение от более ранних «универсальных» агентов, таких как Gato Хотя агенты обучались на разрозненных задачах с небольшой общей структурой, все задачи, связанные с движением — от движений младенца до локомоции примата — принадлежат к единой, связной области, управляемой общими принципами бифизики Именно эта связность и является причиной, по которой фундаментальная модель движения имеет все шансы на успех, позволяя осмысленно переносить знания между, казалось бы, разными действиями Нужны целенаправленные, скоординированные усилия по созданию всеобъемлющих моделей движения, на четырёх ключевых принципах: кросс-модальная интеграция, физическое обоснование, учёт контекста и обобщающая способность: 1. Собрать и стандартизировать данные о движении, которые уже существуют: от высокоточных наборов данных захвата движения вроде AMASS и собранных из веба видеоколлекций типа Motion-X, до логов с носимых датчиков, как в датасете CAPTURE-24 Это потребует создания соглашений о данных (по аналогии с форматом BIDS в нейровизуализации (https://joss.theoj.org/papers/10.21105/joss.01896)) и курирования наборов данных с мультимодальным контекстом 2. Предобучить мультимодальный backbone: разработка аугментаций данных, учитывающих специфику движения (которые не стирают диагностические сигналы, например, тремор), и использование федеративного обучения для тренировки на чувствительных медицинских данных без ущерба для конфиденциальности 3. Оценить на практически значимых задачах: успех следует измерять практической пользой: каузальное понимание, междоменное обобщение и диагностическую значимость