Kontenut tal-post
Вы наверняка подозревали, что у моделей есть свой свой hub. Ну в смысле место, куда люди загружают обученные нейронки, а другие могут их оттуда скачивать и использовать. Вы же об этом подумали, да? 😑 Так вот, сейчас индустриальный стандарт для опенсорсных моделей - это HuggingFace 🤗 Hub. В статье HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace предлагается дать ChatGPT возможность обращаться к этим моделям (а их тысячи, и они решают сотни разных задач). То есть саму языковую модель на основе GPT мы не учим рисовать изображения или переводить текст в речь, но мы даём ей возможность использовать внешние инструменты. Похожая по смыслу работа уже упоминалась в канале, но та была куда менее масштабируемой, и требовала ресурсов для запуска нейронок локально. Итого получаем примерно следующее: 1) ChatGPT получает команду на человеческом языке 2) переводит команду в набор "Задач", которые надо выполнить 3) для каждой задачи среди тысяч доступных моделей выбирается нужная (по предоставленному описанию) 4) ChatGPT читает описание аргументов, которые нужно дать модели, и готовит их 5) после исполнения задачи ChatGPT смотрит на результат и движется по плану дальше, повторяя пункты 3-5 Для лучшего понимания можно рассмотреть скриншот из статьи со следующим запросом: "создай изображение, на котором девочка читает книгу, а ее поза такая же, как у мальчика на изображении <такое то>. А после опиши новое изображение своим голосом". Модель для такого запроса выделяет целых 6 задач (см. в красных рамках на изображении), и успешно справляется с их последовательным выполнением. Код в репозитории с очень занятным названием "Джарвис": https://github.com/microsoft/JARVIS. Наверное, это отсылка к ИИ-ассистенту из фильма "Железный Человек" :) (я бы точно так же назвал, 💯)