Post content
Пару дней назад вышла работа LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents, где авторы расширили возможности мультимодальной модели LLaVa путем добавления набора различных инструментов, к которым можно обращаться для выполнения задачи. Получилось довольно интересно. Про оригинальную модель подробнее писал тут. Теперь взаимодействие пользователя с моделью состоит не из вопроса (текст + картинка) и ответа, а из 4 шагов: — Человек предоставляют задачу (X_q) и картинку (I_q). — Ассистент обрабатывает всю информацию и генерирует X_skill_use — набор инструментов, который потребуется для выполнения задачи (может быть пустым). — После использования конкретного инструмента результат X_result подается обратно на вход ассистенту. — Агрегируя всю доступную информацию, модель выдает финальный результат. На картинке можно увидеть это взаимодействие в виде диаграммы. Зеленым помечены последовательности, по которым считается лосс при обучении, то есть модель учится предсказывать набор инструментов и финальный ответ. В качестве самих инструментов добавлено множество вариантов: генерация через Stable Diffusion, OCR, сегментация через SAM, ControlNet, Pix2Pix и много чего еще. Уже все выложили в открытый доступ: от самой модели, до кода обучения и нового датасета с инструкциями.