🔥 Как реально выбирают LLM в 2025 — исследование LLM Arena
Интересный опрос практиков (инженеров, ML-учёных, AI-продуктов) - как сегодня на самом деле выбирают языковые модели (LLM), что важнее: бенчмарки или собственные тесты, цена/скорость/качество, и чего не хватает в информации по моделям.
📊Ключевые выводы
- 82,2% респондентов проводят собственные тесты; бенчмарки — лишь ориентир, не решение.
- 26,7% вообще не пользуются бенчмарками.
- В центре внимания: баланс качество / цена / скорость, устойчивость (без галлюцинаций), соответствие инфраструктуре.
👥 Участники опроса
- 45 практиков с опытом работы с LLM-продуктами; все участники — профессионалы.
- ML/AI Инженеры, Data Scientists, AI-строители, и менеджмент.
🔑 Что ищут и какие сигналы важны:
- Часто оценивают обсуждаемость модели в статьях/сообществе; практическое применение в похожих продуктах.
- Обращают внимание на число скачиваний и звёзд на Hugging Face / GitHub.
- Хотят больше данных о требованиях к железу, лицензиях, локальной работе, графиках “цена vs качество”, “скорость vs качество”.
⚠️Проблемы & доверие
- Многие не доверяют существующим бенчмаркам из-за методологических проблем (train/test leakage, нерелевантность задач).
- Лабораторные условия часто сильно отличаются от продакшн.
- Нехватка отзывов по реальным сценариям и использованиям.
При выборе LLM важнее собственные тесты и контекст задач, чем рейтинги. Специалисты хотят поточечных данных: про лицензии, требования к железу, latency, стоимость.
Инициатор исследования Роман Куцев - фаундер и CEO LLM Arena, публикуют много интересного у себя в блоге.
Для тех, кто строит LLM-продукты, полезно:
- Не ориентироваться только на чужие бенчмарки.
- Собирать метрики в собственных условиях — на реальных данных.
- Открыто показывать, что работает, а что — нет, в документации и обсуждениях.
🟢 Полное исследование: https://research.llmarena.ru/
#LLM#AI#ИИ#LLMArena#исследование#нейросети#benchmarks
Россияне всё чаще идут к нейросетям за советом по покупкам — и не против рекламы внутри. Исследователи OMI выяснили, что 35% считают уместными встроенные в ответ рекомендации конкретных товаров.
42% опрошенных дополнительно задействуют ИИ для поиска скидок, а большинство продолжат работать с ИИ-сервисами даже при появлении в них рекламы. При этом критична подача: если она действительно полезна (70%), не мешает диалогу (53%), промаркирована (46%).
JDMax#исследование
Определили топ мемов 2026 года — главным стал 'Можно, а зачем?', его упомянули 294'000 раз.
Brand Analytics изучили 9 млрд (!) сообщений за 3 месяца.
JDMax#исследование
Россия опустилась на 82-е место в рейтинге скорости интернета — данные Speedtest.
Медианная скорость — около 91 Мбит/с, для сравнения: в Сингапуре — примерно 425 Мбит/с.
JDMax#исследование
Вечные химикаты делают кости детей хрупкими — взаимодействие с такими веществами в раннем возрасте навсегда влияет на крепкость скелета.
Новое исследование выявило, что воздействие «вечных химикатов» (PFAS) у детей связано со снижением плотности костей. Это приводит к повышению риска переломов и развитию остеопороза.
Авторы исследования призывают снижать загрязнение окружающей среды этими стойкими веществами, особенно в питьевой воде и потребительских товарах, чтобы обеспечить более здоровое развитие костей у детей.
JDMax#исследование
Россия на 79-м месте в мировом рейтинге счастья ООН — между Боливией и Венесуэлой. Всего в списке 147 стран.
Считали, как люди сами оценивают свою жизнь: доходы, здоровье, поддержку и ощущение, что всё более-менее под контролем.
JDMax#исследование
Большинство топ-менеджеров советуются c ИИ перед принятием решений — такие результаты показал опрос.
В исследовании участвовали около 200 владельцев бизнеса, CEO и основателей компаний. 62% опрошенных руководителей заявили, что используют ИИ в большей части рабочих решений.
140 руководителей признаются, что сомневаются в своих идеях, если они противоречат рекомендациям искусственного интеллекта . А 46% опрошенных заявили, что доверяют ИИ даже больше, чем коллегам.
Ранее исследования показывали, что 64% руководителей советуются с ИИ по поводу увольнений сотрудников.
JDMax#исследование
Невролог Маджид Фотухи из Института разума и мозга США говорит, что за 12 недель можно «омолодить» мозг примерно на 3 года.
Программа включает:
• ежедневные 30 минут активного движения
• 5–10 минут простых силовых упражнений
• 7–8 часов стабильного сна
• питание с упором на овощи, белок и полезные перекусы
• короткие практики для успокоения ума и перерывы от экранов (5 минут в день)
• регулярное общение и совместные занятия
По его данным, у большинства людей улучшилась память и внимание, а объём гиппокампа вырос на 3%.
JDMax#исследование
МФТИ, МИФИ и Центральный университет признаны ведущими российскими вузами 2025 года согласно ежегодному мониторингу НИУ ВШЭ.
За год Центральный университет поднялся с восьмой позиции на третью в рейтинге качества общего набора, уступив лишь МФТИ и МИФИ. По уровню платного приема он стал первым в стране: средний балл ЕГЭ зачисленных достиг 87,4.
Авторы исследования отмечают, что в 2025 году первенство укрепили частные вузы, ориентированные на ИТ‑направления и математику и поддерживаемые крупными компаниями.
JDMax#исследование
Россия заняла 6-е место в мире по уровню IQ
Всего в рейтинге участвовало 1,2 млн человек из 137 стран, каждому давали одинаковые задания.
Средний балл вырос на 0.62 по стране.
JDMax#исследование
В России больше всего любителей кошек среди всех стран на Земле. По статистике, у 59% россиян есть любители котиков дома. Второе место у Румынии.
JDMax#исследование
Поздний отбой бьет по сердцу💔 - на 16% выше шанс инфаркта или инсульта
Исследования показали, что привычка засиживаться по ночам повышает риск сердечно-сосудистых проблем.
Вспомним об этом сегодняшним вечером пятницы👌
JDMax#исследование