Содержимое
Меняем правила игры в AI: обходим классические бенчмарки и ищем лучшие модели Недавно работая над проектом чат-бота, моя команда студентов начала с классических бенчмарков - GLUE, SQuAD и прочих. На стандартных тестах всё выглядело круто, но в реальных условиях всё было не так радужно. Пришлось менять подход. Вместо того чтобы гнаться за лидербордами, ребята начали комбинировать разные метрики. И тут их ждал сюрприз! Модели вроде DistilBERT и ALBERT реально выстрелили, особенно в понимании контекста и генерации ответов. Вдохновленные этим, мы решили узнать, как другие ребята в AI выбирают свои модели. Запустили опрос среди ML-инженеров, дата-сайентистов, продактов и MLOps. Оказалось, что многие используют кастомные метрики, такие как F1-score и BLEU, что дало нам кучу идей для улучшения. Так что, ребята, не бойтесь отходить от стандартов и учиться у сообщества. Это может привести к классным решениям! ➡️ Если есть желание внести вклад, то пройдите опрос и поделитесь своим опытом (7 минут): 👉https://forms.gle/dDWeWaWbxhk6qsNL7 Репост = карма👼