Post #420

@MachineLearningResearch

AML

Views37Post view count

PostedOct 2810/28/2025, 11:33 AM

Post content

В Nature вышла работа команды, в которой они разработали подход, где мета-сеть учится генерировать правила обновления для RL-агентов Вместо того, чтобы жёстко прописывать формулы, как в классических методах, система: - Собирает опыт от популяции агентов в сотнях разных сред - Обучает мета-сеть, которая производит правила обновления параметров агентов - Оптимизирует мета-параметры так, чтобы максимизировать долгосрочные награды Система сама решает, что предсказывать Полученный алгоритм назвали DiscoRL (Discovered Reinforcement Learning) Его уже протестировали: Atari (57 игр): DiscoRL показал SOTA результаты, превзойдя Rainbow DQN, PPO и другие классические методы по медианной награде Обобщение на новые задачи: Без дополнительного обучения алгоритм достиг сильных результатов на ProcGen, показал конкурентные результаты на DMLab, NetHack, Crafter и Sokoban Масштабирование: Увеличение разнообразия обучающих сред (с 57 до 103) улучшило обобщение Система не переобучается на узкий набор задач Обнаруженные предсказания ведут себя не как классические value-функции Они "активируются" (резко растут) перед значимыми событиями — большими наградами или изменениями политики Это emergent behavior, который не был заложен изначально Для исследований: Меньше времени на ручное проектирование алгоритмов, больше фокуса на разнообразии данных и архитектуре мета-сети Для практики: Потенциально более адаптивные алгоритмы для робототехники, игр, оптимизации Если правила обучения подстраиваются под распределение задач, это может ускорить применение RL в новых доменах Это шаг к рекурсивному самоулучшению — системы, которые учатся учиться Аналогия с биологией: как эволюция создала способность к обучению у животных, так здесь алгоритм "эволюционирует" через опыт популяции агентов Ограничения: 1. Обучение требует сотен млн шагов по средам с популяцией агентов 2. Пока подход протестирован на off-policy RL с replay buffer. Как он работает в on-policy настройках или в continuous control задачах — открытый вопрос 3. Все эксперименты в симуляторах (Atari, ProcGen и т.д.) Перенос на физических роботов или реальные системы пока не продемонстрирован 4. Хотя авторы анализируют поведение предсказаний, понять, почему конкретное правило обновления работает, сложнее, чем с явными формулами классических методов