Post #167

@MachineLearningResearch

AML

Views34Post view count

PostedJul 2107/21/2025, 05:31 PM

Post content

Не обходите реальныe данныe - это тупик Со-основатель Physical Intelligence, профессор US Berkeley критически относится к попыткам заменить реальные данные суррогатными при обучении ML-агентов, особенно в робототехнике Он объясняет, что: 1. Современные предобученные модели особенно VLM уже используют огромные объемы веб-данных, включая видео 2. Поэтому дополнительное использование видео в робототехнике часто дает незначительные улучшения Основную пользу можно получить, правильно используя уже существующие предобученные представления Это очень практичное наблюдение - зачем изобретать велосипед, если CLIP, GPT-4V и подобные модели уже "посмотрели" значительную часть интернета? По мере того как ML-модели становятся мощнее, это пересечение сужается Более умные модели лучше замечают, что данные из симуляции отличаются от реальности Любые попытки скрыть эти различия в итоге ослабляют саму модель — мы лишаем её главного преимущества: способности находить сложные закономерности в данных Сегодня мировые компании тратят млн $ на попытки избежать сбора реальных данных, и часто эти инвестиции не окупаются Tesla собирает миллиарды миль данных реального вождения Boston Dynamics годами тренировала роботов в физическом мире OpenAI инвестирует огромные ресурсы в сбор реальных робототехнических данных Никто не предлагает отказаться от суррогатных данных полностью Разумная стратегия выглядит так: - Реальные робототехнические данные — это основа, от которой нельзя отказаться - Суррогатные данные полезны для снижения объеманеобходимых реальных данных - Современные предобученные модели (GPT-4V, CLIP) уже содержат много полезной информации из веб-данных Цель — оптимизировать соотношение стоимости и качества, а не избежать реальных данных