Kontenut tal-post
Как LLM применяют к RLьным задачам. 24.05.2023 Ребятки из NVidia и Microsoft Research выложили SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning, в которой рассказали, что сделали фреймворк, и продемонстрировали свой подход к использованию LLMов в RLе. В качестве окружения они взяли The Crafter (скормили прям целую статью по нему в LLM), и получили там SOTA. The Crafter - это визуальное окружение, игрушка по типу Minecraft, но 2д и попроще. Если описать поверхностно, работает это так: Сначала выбираются параграфы из статьи, которые могут быть полезны в генерации контекста. Статья разбивается на параграфы и LLM отвечает вопросы Q_game. Из этих ответов формируются контексты и конкатенируются в один C. Из среды берутся 2 последних изображения, из них вытаскивается текстовое описание d_i, d_i-1 с помощью дескриптора. Также есть набор подготовленных вопросов Q_act . На каждом шаге игры LLM отвечает на вопросы Q_act как в графе показано. LLM дает ответ на вопрос A_v основываясь на контексте C, двух фреймах d_i, d_i-1 и ответе на предыдущий вопрос(ы). Из ответа на последний вопрос поиском по подстроке выбирается лучший экшен. Вижу плюсы: ➕ параметры ллма тренировать не нужно, ибо все делается промптами; ➕ новая SOTA с LLMом. Но есть нюансы: как я понял соту показал только GPT-4; пришлось скормить статью описывающую крафтер целиком в LLM. В целом, выглядит так, что в будущем мы увидим много достижений от LLM based RL.