TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #401 · 27.06

Сегодня целый день был на офлайн-части конференции #DotNext для разработчиков под платформу .NET. Посетил две лекции, два круглых стола (это такое обсуждение несколькими экспертами на сцене, как подкаст, но вживую), поучаствовал во всех активностях, позадавал вопросы и обсудил со спикерами и другими участниками ряд проблем. Вроде всё на месте, но я понял вот что: для меня было мало точек приложения внимания в ширину, однако избыток приложения внимания в глубину. Возможно, я сам себя не слишком правильно настроил. Лето, жара, скоро отпуск: кажется, я ошибочно ожидал чего-то более казуального от мероприятия. Могу сказать, что в своё время посещение TechTrain принесло мне суммарно больше удовольствия, хотя там билеты на порядок дешевле, и выставка в целом более лёгкая и менее тематическая. Здесь же было хорошее глубокое погружение в тему, но горизонтально мне не хватило разнообразия: мало стендов (два), мало пространства по выбору лекций (в каждый момент шло две лекции в двух залах, выбор всегда из двух). На стенде от PVS-Studio поискал ошибки в коде, получил много мерча, прикольного. Но сама система у ребят только корпоративная, индивидуальных лицензий нет, а я возможно даже попробовал бы. Второй стенд от Промсвязьбанка предлагал телеграм-бота с разными заданиями. Я, кстати, Промсвязьбанку писал недавно квиз на Хабр. Они активно хантят народ. Задания были нормальные: там и коммуникация с другими участниками, и ответы на вопросы, и всякое решение задачек. Но разрыв по очкам между точками получения призов такой большой, что всю вторую половину игры я буквально вёл впустую. Из минусов организации отмечу два момента: 1. Офлайн-участников было не очень много, а онлайн-участников существенно больше. Поэтому даже офлайн-участникам предлагалось задавать вопросы спикерам с помощью чатов в Телеграме. Это не только создавало миллион чатов (по каждому докладу свой чат, потому что Телега не умеет в комнаты), но и было неудобно в процессе — ссылка на чат показывалась только в самом начале доклада, если не успел, а вопрос возник по ходу лекции, то найти ссылку проблематично. И вообще, я считаю, что правильно было бы дискриминировать онлайн-участников. Они меньше заплатили за билет, они поленились приехать. Но их удобство в итоге было приоритетным над удобством офлайн-участников просто из-за количества. 2. Дискуссии пересекались по времени с другими лекциями и с обедом. В итоге нельзя было полноценно пообсуждать что-то со спикером, не опоздав куда-то дальше. А на обед я вообще попал тогда, когда почти всё уже съели. За счёт работодателя бы ездил с удовольствием, но за личные деньги, пожалуй, не моё. #dev

Hashtags

Резултати

Намерени 1 подобни публикации

Търсене: #llmarena

当前筛选 #llmarena清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8560 · 16.09.2025 г., 16:22

🔥 Как реально выбирают LLM в 2025 — исследование LLM Arena Интересный опрос практиков (инженеров, ML-учёных, AI-продуктов) - как сегодня на самом деле выбирают языковые модели (LLM), что важнее: бенчмарки или собственные тесты, цена/скорость/качество, и чего не хватает в информации по моделям. 📊Ключевые выводы - 82,2% респондентов проводят собственные тесты; бенчмарки — лишь ориентир, не решение. - 26,7% вообще не пользуются бенчмарками. - В центре внимания: баланс качество / цена / скорость, устойчивость (без галлюцинаций), соответствие инфраструктуре. 👥 Участники опроса - 45 практиков с опытом работы с LLM-продуктами; все участники — профессионалы. - ML/AI Инженеры, Data Scientists, AI-строители, и менеджмент. 🔑 Что ищут и какие сигналы важны: - Часто оценивают обсуждаемость модели в статьях/сообществе; практическое применение в похожих продуктах. - Обращают внимание на число скачиваний и звёзд на Hugging Face / GitHub. - Хотят больше данных о требованиях к железу, лицензиях, локальной работе, графиках “цена vs качество”, “скорость vs качество”. ⚠️Проблемы & доверие - Многие не доверяют существующим бенчмаркам из-за методологических проблем (train/test leakage, нерелевантность задач). - Лабораторные условия часто сильно отличаются от продакшн. - Нехватка отзывов по реальным сценариям и использованиям. При выборе LLM важнее собственные тесты и контекст задач, чем рейтинги. Специалисты хотят поточечных данных: про лицензии, требования к железу, latency, стоимость. Инициатор исследования Роман Куцев - фаундер и CEO LLM Arena, публикуют много интересного у себя в блоге. Для тех, кто строит LLM-продукты, полезно: - Не ориентироваться только на чужие бенчмарки. - Собирать метрики в собственных условиях — на реальных данных. - Открыто показывать, что работает, а что — нет, в документации и обсуждениях. 🟢 Полное исследование: https://research.llmarena.ru/ #LLM#AI#ИИ#LLMArena#исследование#нейросети#benchmarks