Post content
Какой-то привлекающий внимание релиз от Kwaipilot (раньше не слышал про них) – 32B и 72B модели, выбивающие на SWE-bench Verified 62.4% и 74.6%, причем используя дефолтный swe-agent. А это уже так-то уровень gpt5 codex high анонса openai. Пока что есть только блогпост, в котором раскрыли чуть-чуть деталей, но не столько, сколько хотелось бы. Обучение выглядит уже по классике: base → mid-train → SFT → RFT → RL. Расскажу, что, на мой взгляд, есть интересного: – Обычно награда на стадии RL строится так: за успешное прохождение тестов дается +1, за неудачное — 0. Есть альтернативы, когда считается похожесть сгенерированного патча на golden patch (то есть изменения, взятого напрямую из pull request-а), так делали например, в недавней работе CWM от FAIR или в SWE-RL. Здесь авторы предлагают другое. Во время RFT они собирают с помощью людей “teacher trajectories”, которые используют потом во время RL для того, чтобы считать отклонения от хорошего поведения. Это отклонение и выступает в роли награды. Если траектория во время RL становится сильно не похожей ни на какую траекторию из ground truth, то она удаляется. На мой взгляд, идея интересная, но возникает много вопросов, возможно хорошее направление для ресерча. – Написано довольно размыто, но, по-видимому, авторы агрегируют все траектории в префиксное дерево, где узел – это префикс, который может встречаться сразу в нескольких траекториях. А далее это дерево прунят по каким-то критериям, чтобы оставить самые ценные узлы. Мотивация здесь может быть следующей: тк контексты в моделях большие, а награда всего одна в конце, то апдейты на каждом шаге – вещь довольно шумная. За счет прунинга дерева траекторий, можно выкидывать какие-то маловажные части контекста. Но тут слишком мало информации, чтобы делать выводы сложнее. Хотя направление опять же прикольное. – В mid-train ребята запихнули кучу данных с гитхаба, куда я думаю точно вошел SWE-bench Verified. Он обязательно войдет, если напрямую не делать деконтаминацию. Поэтому хочется посмотреть на качество модели на более свежем бенчмарке. Пока, кстати, читал блогпост, увидел, что 2 недели назад на лидерборде Verified новый лидер – 78.8% с моделью Doubao-Seed-Code от bytedance. Со дня на день увидим очередной релиз значит.