Post #812

@MachineLearningResearch

AML

Views43Post view count

PostedMar 3003/30/2026, 03:06 PM

Post content

Oт моделей, которые отвечают, к агентам, которые действуют Агентам недостаточно уметь воспроизводить правильные ответы, они должны уметь выбирать стратегию поведения, чтобы решать многошаговые задачи и подстраиваться под непредсказуемое поведение пользователя Отсюда вывод: агентам нужно учиться через опыт RL-среды — сейчас один из главных трендов машинного обучения в целом Над его развитием работают все игроки индустрии: Open AI, Google, Яндекс, Anthropic RL-среда = симулятор, где модель обучается через реальные действия Модель выбирает какую-то стратегию и работает по ней (это называется траектория), затем получает оценку своих действий, и постепенно учится выбирать лучшую политику Самое главное, что правильного ответа тут иногда просто нет, так что мы говорим именно про сравнение вариантов действий Работает это потому, что RL-среда учит не отдельным ответам, а последовательностям действий Модель начинает учитывать последствия своих шагов и учится планированию, адаптации и работе с неопределенностью Но и проблем с RL-средами пока хватает Во-первых, сложно задать корректную функцию награды: модель может научиться "обманывать" метрику, не решая задачу по сути Во-вторых, остается проблема credit assignment – как понять, на каком шаге стратегия пошла не так И, наконец, сами среды пока далеки от реальности: симулированный пользователь все еще ведет себя проще, чем настоящий Вот тут об этих и других вызовах для RL есть побольше вводных Суть в том, что чем лучше будут RL-среды – тем лучше (и быстрее) будут агенты