TGTGInsighttelegram intelligenceLIVE / telegram public index
← AI[ex]Time
AI[ex]Time avatar

TGINSIGHT POST

Post #167

@AIexTime

AI[ex]Time

Views2,460Post view count
PostedDec 2312/23/2025, 01:12 PM
Post content

Post content

В рамках одного из проектов, где мы строим scaffolding-agnostic инфраструктуру, накопилось достаточно большое кол-во агентских траекторий, которые мы посчитали будет полезно выложить. И сразу же возник вопрос: а насколько можно прокачать модель в SWE, сделав простой rejection fine-tuning на траекториях Qwen3-480B-Coder. Оказалось, что очень даже неплохо – тянет на сильный бейзлайн в других экспериментах. Собрав множество деталей и багов запуска с OpenHands, сделали еще небольшой чеклист, как репортить замеры, чтобы было воспроизводимо – репортов вида openhands maxiter=100 недостаточно 😕️️️️️️ А главные цифры можно увидеть у Ибрагима 👆