TGTGInsighttelegram intelligenceLIVE / telegram public index
← AI[ex]Time
AI[ex]Time avatar

TGINSIGHT POST

Post #148

@AIexTime

AI[ex]Time

Views2,350Post view count
PostedSep 1209/12/2025, 04:30 PM
Post content

Post content

Вопрос к вам, дорогие читатели: в каких срезах вы считаете важным смотреть на поведение SWE агентов? Сейчас на лидерборде https://swe-rebench.com мы замеряем способности моделей решать GitHub issues на питоне. Это покрывает лишь малую часть того, что мы понимаем под разработкой. Возможными шагами по расширению бенча могут быть: - Оценка качества написания тестов (может ли модель написать тест, который падает до и проходит после правильного фикса?) - Добавление множества языков (например, Java, Go, Rust, etc) Хочу собрать фидбек на следующие темы: - Считаете ли вы что-то из вышеперечисленного более приоритетным? - Если говорить про мультиязычность, то какие языки интересны в первую очередь? - Какие еще срезы вам кажутся важными в контексте замеров агентов? Если у вас есть возможность порепостить аналогичный пост в X, то буду признателен. Хочется собрать максимально возможный фидбек от пользователей.