TGINSIGHT CHAT
Агенты ИИ | AGI_and_RL
@agi_and_rl
ТехнологииПро ии, RL и в целом @tokarev_i_v https://t.me/researchim
Последни публикации
Таг: #multitask · 1 публикации
Публикувано 26.04
Offline Actor-Critic Reinforcement Learning Scales to Large Models В основном ресерч в сфере рл происходит на маленьких моделях пушто - и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все - есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах - если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!! И это все на 132 тасках с непрерывными действиями 🥸 👀LINK #rl#offlinerl#multitask#behaviorcloning#largemodels#scalinglaws