Post #133

@AIexTime

AI[ex]Time

Views3,560Post view count

PostedJul 2707/27/2025, 09:38 PM

Post content

На днях вышла работа от Qwen про RL алгоритм Group Sequence Policy Optimization (GSPO), стоящий за их последними моделями Qwen3-235B и Qwen3-Coder (модели, кстати, очень мощные, скоро будет апдейт swe-rebench, где мы в том числе померили их). Главное предложение авторов, перейти на уровень траекторий для подсчета importance ratio (IR), понятно; какое-то время назад выходила отчасти похажая статья Tapered Off-Policy. Но я хочу чуть подробнее рассказать про 2 момента в использовании обычного GRPO, которые могут внезапно выстрелить в ногу на практике. Про них и пишут авторы с точки зрения проблем, которые приходилось решать. 1. Для того чтобы считать IR поправку, нужны логпробы текущей модели и той, которая использовалась во время инференса. На практике получается, что из-за разных имплементаций фреймворков обучения и движков инференса (vllm, sglang), итоговые логпробы одной и той же модели могут различаться довольно сильно, что бьет по стабильности обучения GRPO, тк поправка там считается на уровне каждого токена. GSPO же работает на уровне целых траекторий, которые естественно менее чувствительны к расхождениям вычислений. 2. В ту же копилку, если мы учим MoE, то даже после одного градиентного шага может сильно измениться распределение активируемых экспертов, что опять же бьет по стабильности IR. Чтобы победить эту проблему в GRPO, авторы кэшировали активируемых экспертов и использовали их для подсчета логпробов (в статье это называется Routing Replay). Интересно, что про такие вещи заранее вряд ли вообще подумаешь, и только на практике они могут подло вылезти в самый неожиданный момент.