TGTGInsightтелеграм анализLIVE / telegram public index
Обратно към каналите
Агенты ИИ | AGI_and_RL avatar

TGINSIGHT CHAT

Агенты ИИ | AGI_and_RL

@agi_and_rl

Технологии

Про ии, RL и в целом @tokarev_i_v https://t.me/researchim

Абонати5,870Текущи абонати
Публикации1,008Индексирани публикации
Скорошен обхват1,720Прегледи на скорошни публикации
Последни публикации

Последни публикации

Таг: #multitask · 1 публикации

当前筛选 #multitask清除筛选

Offline Actor-Critic Reinforcement Learning Scales to Large Models В основном ресерч в сфере рл происходит на маленьких моделях пушто - и небольшие модели способны решить задачи при грамотном обучении и грамотной архитектуре (эмпирический факт), в основном это млп с релу/лики_релу и леернормой и все - есть много проблем в сетапе рл, которые надо решать до того, как задумываешься о модельке и ее размерах - если увеличивать размер модели, то это доп проблемы, потому что увеличиваются риски для нестабильности, вырожденности и всего такого Но дипмаинд решил разнести и эту парадигму и отскейлить рл модели до больших размеров Как оказывается, актор-критик в совокупности с perceiver'ом, который здесь может обрабатывать разные стейты для разных роботов (или симулякров роботов) + постепенно отходить от бихевиор клонинга, и выбивать высокий скор как на средах, где данные собраны хорошо, так и плохо!! И это все на 132 тасках с непрерывными действиями 🥸 👀LINK #rl#offlinerl#multitask#behaviorcloning#largemodels#scalinglaws

1,720 views