Post #138

@AIexTime

AI[ex]Time

Views2,990Post view count

PostedAug 708/07/2025, 02:26 PM

Post content

Те из вас, кто следит в последний год за развитием reasoning моделей, возможно заметили, что RL практически всегда делается поверх single-turn задач, зачастую на математике или написании кода по типу leetcode. В этом направлении есть огромное кол-во литературы, исследующей разные лоссы, динамику обучения, эффективность данных и прочее. Но такого рода задачи на самом деле покрывают очень малую часть того, что мы бы хотели видеть от моделей/агентов в будущем, а именно длинное multi-turn взаимодействие со средой, где каждый шаг ведет к нетривиальному ответу. На днях мы выложили статью Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning, где применяем RL для тренировки SWE-агента как раз в достаточно общей формулировке: у нас есть среда и начальное состояние в виде описания задачи + контейнера с репозиторием, на шаге t агент выдает действие a_t, после чего наблюдает ответ obs_t. В конце, после завершения траектории, приходит награда в зависимости от того, успешно выполняются финальные тесты или нет (чтобы детальнее погрузиться в задачу можно почитать про сам SWE-bench или вот этот мой пост). Интерес в такой общей формулировке заключается в том, что результаты должны переноситься на любой другой сценарий длительного взаимодействия со средой, в конце которого можно получить верифицируемый фидбек, будь то веб-агенты, роботы и тд. В статье мы применили DAPO-like алгоритм к Qwen-2.5-Instruct и в итоге подняли качество на SWE-bench Verified с 11% до 39% без какой-либо дистилляции траекторий от более сильных моделей, что соотносится с нашими замерами DeepSeek-V3-0324.