Содержимое
Grounding Dino Мультимодальность сегодня — одна из самых популярных вещей в глубоком обучении. В новой статье мы рассмотрим, как на основе Grounding Dino можно добавить язык к задаче детекции объектов на изображениях. А ещё узнаем, что включение дополнительной модальности позволяет не только создавать запросы вида “самая правая кошечка”, но и находить объекты классов, которых нет в обучающей выборке. Из этой статьи вы также узнаете: - зачем нужна “дружба” между языком и картинками и какие у неё бонусы - какая архитектура Grounding Dino - как соединить модальности - каким образом можно запустить и потрогать Grounding Dino - как запустить и потрогать модель сегментации на основе Grounding Dino - и как с помощью сегментации и диффузии заменить объект на картинке Читайте нашу статью по ссылке: https://www.notion.so/deepschool-pro/Grounding-DINO-054a72d301d840ec99611cd76acba169?pvs=4