Агенты ИИ | AGI_and_RL (@agi_and_rl) · #multitask

Публикувано 26.04

Offline Actor-Critic Reinforcement Learning Scales to Large Models В основном ресерч в сфере рл происходит на маленьких моделях пушто - и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все - есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах - если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!! И это все на 132 тасках с непрерывными действиями 🥸 👀LINK #rl#offlinerl#multitask#behaviorcloning#largemodels#scalinglaws

1,720 views

Hashtags

#rl #offlinerl #multitask #behaviorcloning #largemodels #scalinglaws

Последни публикации