Post #808

@data_science_winners

🏄 Соревновательный Data Science | Kaggle | Чемпионаты

Просмотры1,840Количество просмотров

Опубликован17 янв.17.01.2026, 09:59

Содержимое поста

Содержимое

Привет, Чемпионы! 🏆🚀 Kaggle выкатили Community Benchmarks - новый продукт, который позволяет самому сообществу создавать, запускать и шарить собственные бенчмарки для оценки ИИ. И да, бесплатно 😎 Что это значит на практике: 🧪 Свои eval’ы и задачи - от простых загадок до сложных агентных сценариев 🧩 kaggle-benchmarks SDK - единый API для Gemini, Claude, Qwen, DeepSeek и других 🖼️ Мультимодальность - текст + изображения, структурированные JSON-выходы ⚖️ LLM-as-a-Judge - оценивай креатив, код и рассуждения другим LLM 📊 Оценка на датасетах - прогон по pandas DataFrame с агрегацией метрик 🤖 Agentic-фичи - тулзы, sandboxed Python, игровые циклы И самое важное - публикация прямо на Kaggle 📢 Можно собрать несколько задач в бенчмарк, выложить его, и даже добавить citation для научных работ. Комьюнити уже делает крутые вещи: 🍋 рисование (Lemonasso) 🏥 медицинские и safety-бенчмарки 🌍 кросс-культурный интеллект 🔐 криптоанализ 🏭 инженерные задачи из реального мира Kaggle прямо говорит: evals - это сложно, и без сообщества масштабироваться невозможно. Поэтому теперь бенчмарки — не только от больших лаб, но и от вас 💪 Если вы тестируете LLM, строите агентов или просто хотите мерить не ощущения, а качество - это очень сильный апдейт экосистемы. #kagglenews