TGTGInsighttelegram intelligenceLIVE / telegram public index
← AI[ex]Time
AI[ex]Time avatar

TGINSIGHT POST

Post #58

@AIexTime

AI[ex]Time

Views2,520Post view count
PostedJan 3101/31/2024, 11:11 AM
Post content

Post content

Увидел тут у Артема из ai_newz прикольный ролик, как собака-робот учится ходить всего за один час без помощи каких-либо симуляторов, а прямо в режиме настоящего времени. Это пример из работы DayDreamer, захотелось внимательнее почитать и рассказать, по какому принципу авторы предлагают выстраивать процесс такого обучения. Для каждой задачи придумывается своя функция награды, и, имея множество удачных и неудачных примеров взаимодействия со средой, можно применять различные RL алгоритмы. Вопрос в том, откуда эти примеры взять. В использовании симуляторов есть проблема, что итоговое решение тяжело потом перенести на реальный мир. Более того, для каждой задачи нужно прорабатывать свой симулятор со всеми вытекающими вроде корнер кейсов или физики конкретных действий. Предложенное решение заключалось в добавлении еще одной модели, World Learner (WL), которая изучает динамику окружающего мира в онлайне и генерирует траектории для обучения нашего RL алгоритма. — WL: По сути модель решает задачу next state prediction, где на вход подается состояние (информация с камер и сенсоров) и выполненное действия, и модель учится понимать среду путем предсказания следующего состояния (как LLM учится предсказывать следующее слово в последовательности). Сама модель представляет из себя State-Space Model — популярный нынче класс моделей для работы с последовательностями. На ум пришла лекция Ильи Гусева про них и не только, посмотрите если интересно (лекция сильно техническая, так что имейте в виду) — Actor-Critic: имея WL, мы можем генерировать большое кол-во траекторий для обучения агента в риал-тайме. В статье авторы используют классический алгоритм AC с дополнительной регуляризацией в виде энтропии распределения действий (для того, чтобы сохранять некоторый exploration), это частый трюк в RL в целом. Получаем два параллельных процесса: WL учится понимать мир вокруг и тут же подкидывает агенту траектории для обучения. WL улучшается, а за ним AC может лучше выучить оптимальное поведение. В результате собачка учится ходить за 1 час🙂