Post content
Сбор данных, на мой взгляд, представляет собой самое ценное в этой статье. Авторы захотели адаптировать Instruction Tuning подход к обучению, который так популярен в языковых моделях, к мультимодальным. Разметку для этого они получили с помощью генерации моделями по типу ChatGPT/GPT-4. Еще одна работа в аргументы того, что обучение на хорошо подготовленных синтетических данных может давать очень сильные результаты. Пайплайн выглядит следующим образом: 1. Для того чтобы использовать модели по типу GPT (которая обрабатывает только текст) нам нужно научиться передавать информацию о картинке именно в текстовом формате. Для этого используют два типа промптов: Captions (описывают картинку с разных точек зрения) и Bounding boxes (описывают объекты на изображении и их местонахождение). Уже по ним GPT генерирует различные инструкции для обучения. Делается это в формате few-shot learning, то есть предварительно помещая в контекст вручную отобранные примеры ответов. 2. Для обучения Multimodal Chatbot всего используются три вида инструкций: Conversation, Detailed description, Complex reasoning. На этапе обучения мы семплируем такие single/multi-turn диалоги из сгенерированных данных и учим модель предсказывать только ответы ассистента. Под обучением здесь понимается классическая постановка авторегрессионной модели, то есть по входным данным мы предсказываем ответы в стиле Next Token Prediction. На картинке представлены примеры инструкций, запроса в GPT и финального датасета.