Post content
Вопрос к вам, дорогие читатели: в каких срезах вы считаете важным смотреть на поведение SWE агентов? Сейчас на лидерборде https://swe-rebench.com мы замеряем способности моделей решать GitHub issues на питоне. Это покрывает лишь малую часть того, что мы понимаем под разработкой. Возможными шагами по расширению бенча могут быть: - Оценка качества написания тестов (может ли модель написать тест, который падает до и проходит после правильного фикса?) - Добавление множества языков (например, Java, Go, Rust, etc) Хочу собрать фидбек на следующие темы: - Считаете ли вы что-то из вышеперечисленного более приоритетным? - Если говорить про мультиязычность, то какие языки интересны в первую очередь? - Какие еще срезы вам кажутся важными в контексте замеров агентов? Если у вас есть возможность порепостить аналогичный пост в X, то буду признателен. Хочется собрать максимально возможный фидбек от пользователей.