Post #18

@MachineLearningResearch

AML

Views21Post view count

PostedApr 3004/30/2025, 11:20 AM

Post content

Группа исследователей выпустила статью, в которой разоблачает системные проблемы популярного рейтинга Chatbot Arena Оказывается, вместо честной гонки, мы видим манипуляции и неравные условия Почему это важно? Chatbot Arena влияет на исследования, инвестиции и восприятие ML Но вместо реального прогресса мы видим, как крупные игроки эксплуатируют лазейки, усиливая свое доминирование Это бьет по открытым проектам и тормозит инновации Вот, что важно знать: Ключевые проблемы: 1. Привилегии для гигантов: OpenAI, Google, Meta* и Anthropic тестируют десятки приватных моделей (например, Meta — 27 вариантов Llama 4) и публикуют только лучшие результаты, завышая свои позиции 62.8 % тестовых запросов идут четырем крупным компаниям, а 83 открытым моделям — всего 29.7 % Данные Arena дают до 112 % прироста в тестах, но доступ к ним ограничен для небольших команд 205 из 243 моделей (66 % открытых) были незаметно убраны из рейтинга без объяснений Проприетарные модели исключают реже Разная частота тестов, скрытые правила и отсутствие публичности результатов создают иллюзию объективности Arena уже признала некоторые проблемы, но утверждает, что они не являются результатом фундаментальных изъянов в дизайне платформы Они заявили, что обновили свои правила, чтобы "усилить приверженность справедливым и воспроизводимым оценкам" Реакция сообщества: - На X и Reddit разработчики жалуются: их модели получают меньше запросов и чаще исключаются - Есть призывы к бойкоту Arena и переходу на Hugging Face Open LLM Leaderboard - Есть идеи о децентрализованных платформах, где данные распределяются равномерно, но они пока в зачатке Что предлагают авторы статьи? - Прозрачность: публиковать все результаты тестов - Равные правила: ограничить число приватных вариантов и справедливо распределять запросы - Честное исключение: уведомлять разработчиков и не дискриминировать открытые модели