TGTGInsighttelegram intelligenceLIVE / telegram public index
← AI[ex]Time
AI[ex]Time avatar

TGINSIGHT POST

Post #104

@AIexTime

AI[ex]Time

Views2,200Post view count
PostedDec 2012/20/2024, 02:08 PM
Post content

Post content

Мы зарелизили первый датасет для software engineering agents!🤖 В последние несколько месяцев наша команда активно работала над software engineering агентами. Я с частью команды отвечал за данные и эксперименты с ними. Сегодня мы выложили данные, которые собрали. Напомню, что на этих данных мы обучили модели (Llama 3.1, Qwen 2.5), которыми набрали 40.6% на SWE-Bench Verified. Про сами данные: Используя доработанную напильником методологию SWE-Bench мы собрали 6.4k пар PR+issue из 2k репозиториев на питоне. Потом сгенерировали 80к траекторий, где агент на базе SWE-agent, используя наши зафайнтюненные модели пытается решить эти issues. В каждой траектории есть инфа про то, решил ли итоговый патч issue, какая была модель, статус окончания работы агента и логи evaluation. Данные выложили на HuggingFace: 6.4 issue-PR pairs: nebius/SWE-bench-extra 80k траекторий: nebius/SWE-agent-trajectories Блогпост с подробным описанием того, как собирали данные можно прочитать тут