TGINSIGHT CHAT
AI[ex]Time
@AIexTime
TechnologiesLLM & Agents research: environments, post-train, RL, inference @alex_golubev13
Recent posts
Page 4 of 14 · 165 posts
Posted Sep 5
> Мы раскатываем релиз в прод без анонсов, чтобы проверить, что все ок > Игорь пишет обзор спустя 15 минут
Posted Sep 3
Возможно скоро грядет новая версия Kimi-K2-0905, судя по немного спекулятивному обсуждению на реддите. А мы только на днях добавим на ребенч первую версию, которая, кстати, очень неплохо себя показывает 🤯 Уверен, что новая модель залетит в топ на большинстве агентских кодовых бенчей, но здесь мне интереснее другой факт. По-моему, Kimi были чуть ли не первыми, кто в работе по большим претренам рассказал, что учил в конце RL не только на верифицируемые задачи, но и на неверифицируемые с помощью рубрик. И очень интересно посмотреть, во что это выльется на бенчах по типу Creative Writing, особенно учитывая их сообщения в дискорде.
Posted Aug 13
Продолжаем обновлять swe-rebench leaderboard, и вчера туда на первое место ворвалась gpt5 с medium reasoning effort. Хочется на этот счет оставить пару комментариев: 1. Как видно из лидерборда, medium effort стоит выше high. Связано это как минимум отчасти с тем, что с high effort модель получается чересчур саморефлексирующей, то есть постоянно перепроверяет себя, повторно тестирует решение и в конце концов упирается в лимит по кол-ву шагов (сейчас это 80). 2. Запуск использовал completions эндпоинт, а с ним есть проблема: ризонинг модели нельзя подать на вход следующего терна, поэтому на каждом шаге модель видит аутпут + тул, но не рассуждения. Если первый пункт остается под вопросом, то второй мы поправим в ближайшее время. Глобально это означает, что результаты gpt5 могут быть еще выше. Подробнее про rebench: https://t.me/AIexTime/121
Posted Aug 11
Удивительно, как наш датасет swe-rebench стал самым скачиваемым за последний месяц на HuggingFace. Все больше и больше находим команд, которые используют его для тренировки агентов. Мы уже работаем над версией v2, в котором выкатим интересные фичи сразу по нескольким направлениям. Если вы каким-то образом используете эти данные и у вас есть фидбек насчет того, чего не хватает, что хотелось бы видеть или просто смелые идеи, пишите, буду благодарен любой обратной связи.
Posted Aug 7
Те из вас, кто следит в последний год за развитием reasoning моделей, возможно заметили, что RL практически всегда делается поверх single-turn задач, зачастую на математике или написании кода по типу leetcode. В этом направлении есть огромное кол-во литературы, исследующей разные лоссы, динамику обучения, эффективность данных и прочее. Но такого рода задачи на самом деле покрывают очень малую часть того, что мы бы хотели видеть от моделей/агентов в будущем, а именно длинное multi-turn взаимодействие со средой, где каждый шаг ведет к нетривиальному ответу. На днях мы выложили статью Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning, где применяем RL для тренировки SWE-агента как раз в достаточно общей формулировке: у нас есть среда и начальное состояние в виде описания задачи + контейнера с репозиторием, на шаге t агент выдает действие a_t, после чего наблюдает ответ obs_t. В конце, после завершения траектории, приходит награда в зависимости от того, успешно выполняются финальные тесты или нет (чтобы детальнее погрузиться в задачу можно почитать про сам SWE-bench или вот этот мой пост). Интерес в такой общей формулировке заключается в том, что результаты должны переноситься на любой другой сценарий длительного взаимодействия со средой, в конце которого можно получить верифицируемый фидбек, будь то веб-агенты, роботы и тд. В статье мы применили DAPO-like алгоритм к Qwen-2.5-Instruct и в итоге подняли качество на SWE-bench Verified с 11% до 39% без какой-либо дистилляции траекторий от более сильных моделей, что соотносится с нашими замерами DeepSeek-V3-0324.
Posted Aug 7
Posted Jul 31
Обновили SWE-rebench за июль и вместе со стандартными замерами выкатили пару интересных апдейтов. На лидерборде появились: Gemini-2.5 Pro, o4-mini, DeepSeek-R1-0528, разумеется все последние Qwen3, включая Coder-480B, который ворвался в топ1; а также загадочную модельку horizon-alpha, про которую сейчас ходят различные слухи, будто это gpt5/gpt5-mini или OSS модель от openai (спасибо Игорю @seeallochnaya, который пришел с утра и сказал, что openrouter дает бесплатно ее погонять). Есть еще пара технических апдейтов, включая 1-shot демонстрацию для вызовов тулов: теперь вместо рендеринга демо внутри систем промпта, мы кладем несколько assistant-tool сообщений. Это полечило 95% ошибок с вызовом тулов у всех моделей. Предвкушая вопросы: Qwen3-Coder-30B-A3B-Instruct добавим буквально на днях. Kimi-K2 тоже добавим, но пока у нее проблемы с вызовом тулов в multi-turn траекториях. Ну и скажу, что уже есть большие планы по тому, чтобы добавить в бенчмарк классные фичи, что-то появится в ближайшем релизе за август, что-то чуть позже, но в любом случае работа идет!
Posted Jul 27
На днях вышла работа от Qwen про RL алгоритм Group Sequence Policy Optimization (GSPO), стоящий за их последними моделями Qwen3-235B и Qwen3-Coder (модели, кстати, очень мощные, скоро будет апдейт swe-rebench, где мы в том числе померили их). Главное предложение авторов, перейти на уровень траекторий для подсчета importance ratio (IR), понятно; какое-то время назад выходила отчасти похажая статья Tapered Off-Policy. Но я хочу чуть подробнее рассказать про 2 момента в использовании обычного GRPO, которые могут внезапно выстрелить в ногу на практике. Про них и пишут авторы с точки зрения проблем, которые приходилось решать. 1. Для того чтобы считать IR поправку, нужны логпробы текущей модели и той, которая использовалась во время инференса. На практике получается, что из-за разных имплементаций фреймворков обучения и движков инференса (vllm, sglang), итоговые логпробы одной и той же модели могут различаться довольно сильно, что бьет по стабильности обучения GRPO, тк поправка там считается на уровне каждого токена. GSPO же работает на уровне целых траекторий, которые естественно менее чувствительны к расхождениям вычислений. 2. В ту же копилку, если мы учим MoE, то даже после одного градиентного шага может сильно измениться распределение активируемых экспертов, что опять же бьет по стабильности IR. Чтобы победить эту проблему в GRPO, авторы кэшировали активируемых экспертов и использовали их для подсчета логпробов (в статье это называется Routing Replay). Интересно, что про такие вещи заранее вряд ли вообще подумаешь, и только на практике они могут подло вылезти в самый неожиданный момент.
Posted Jul 27
Posted Jul 11
Привет! 🥗🇨🇦🤖🇬🇧 сегодня у нас в качестве блюда винегрет с новостями! я сейчас напишу все разом, если будет интересно, пишите в комментариях про что рассказать подробнее. во-первых, у нас приняли статью на ICML про то, как мы обучали агентов для кода, поэтому сейчас сижу жду вылет в Ванкувер. Будем там с Сашей @AIexTime и Кариной (она сейчас в DeepMind) если тоже будете там, давайте увидимся! во-вторых, мы решили сделать еще доступнее наш лидерборд SWE-rebench. Выложили все задачи включая свежие за июнь + докер образы для них + инструкцию как все запускать. Датасет со всеми данными, про который писал в прошлый раз, кстати, только за прошлый месяц скачали 128 264 раз! в-третьих, в начале года я получил апрув на визу UK Global Talent, а в марте мы перебрались в Лондон. Поэтому, если вы в Лондоне или будете проездом, пишите, давайте увидимся! Кейс для визы собирал сам, если будут вопросы, спрашивайте, на что смогу - отвечу.
Posted Jul 11
Теперь, если вы умеете запускаться на swe-bench задачах, то можете это делать и на любых инстансах из swe-rebench, данные которого будут пополняться каждый месяц!
Posted Jun 12
Большое обновление SWE-rebench: Tool Usage, Claude Sonnet 3.5/4, OpenAI o3 и данные за май. Сегодня выпустили довольно крупное обновление бенчмарка, спасибо всем, кто приходил с фидбеком в личку и писал в комментариях. Основные фичи: - Поддержка Tool Usage. Агент теперь может бежать в двух режимах взаимодействия со средой, с тулами и без. Мы заметили, что даже у самых сильных моделей были сложности с форматированием действий, поэтому добавили инструмент терминала, в который модель отправляет доступные команды. - Теперь на лидерборде есть фронтир модели Claude Sonnet 3.5/4 и OpenAI o3, большинство запросов было именно по поводу них. Вскоре надеемся добавить и Gemini 2.5 Pro. - Майские данные. Намайнили нашим пайплайном данных за май и докинули результаты для всех моделей. Продолжаем принимать запросы, чего не хватает, какие модели хотелось бы видеть и любой другой фидбек 🙂 Лидерборд: https://swe-rebench.com/leaderboard