Содержимое
Visual Large Language Models Когда OpenAI открыли API к своим моделям, многие NLP-инженеры начали переживать насчёт своей карьеры: зачем нужны будут дорогостоящие инженеры, когда можно по API за пару центов сходить в модель куда сильнее, чем та, что у нас в проде. Время прошло, все поняли, что ходить по API не так уж и дёшево, моделям надо как-то добавлять знания через тюнинг, промпт-инжиниринг, RAG и так далее. Но теперь модели хорошо справляются и с CV-задачами. Ждут ли CV-инженеров те же переживания?🤔 Чтобы ответить на этот вопрос, надо для начала познакомиться с тем, что вообще из себя представляют эти модели. Для этого мы и подготовили новую статью. В ней мы обсудим: - основные детали архитектур мультимодальных моделей - какие выделяют этапы обучения в разных подходах - какие существуют способы оценки, их проблемы и решения - что такое rl и промптинг - интересные приёмы и как их можно применять в своих задачах Читайте статью по ссылке И подписывайтесь на DeepSchool