Содержимое
⏺Разработчики проанализировали терабайты данных и научили нейросеть улыбаться, злиться и говорить как известный политик Рассказывает Григорий Шершуков, директор по продуктам компании «Наносемантика» Основная задача цифрового аватара — привлекать внимание к бренду и делать клиентский опыт оригинальнее, интереснее. Например, в ретейле цифровой аватар может быть интегрирован в устройства для самообслуживания и выполнять функции консультанта, что также высвободит время персонала магазина. Какая была задача? В первую очередь идея заключалась в создании генеративной нейросети, которая сможет отвечать на вопросы пользователей в стиле Владимира Жириновского. Заказчики настояли на том, что это не должна быть копия политика. Стояла задача сделать «цифрового ученика», вобравшего максимально полный объем информации о Владимире Вольфовиче. При этом нейросеть должна распознавать речь, генерировать ответ и синтезировать голос. Этап 1. Разработка текстовой модели Мы протестировали множество моделей, включая известные Alpaca, LLaMA, Vicuna, Falcon, ruGPT-3.5, LLaMA-2. И большинство моделей все же заточено под английский. Наша модель создавалась по тем же принципам. Заказчик предоставил 18 тысяч часов аудио- и видеозаписей, а также книги и печатные интервью — в общем больше 90 терабайт данных. Для обучения модели весь контент перевели в текст — так оттачивается стиль ответов и закладывается их содержание. Чтобы обучить модель отвечать на вопросы, нужно дать ей большое количество примеров. Поэтому мы сформировали датасет из 150 тысяч инструкций в виде вопросов и ответов на основе трудов и высказываний Владимира Жириновского. На следующих этапах синтезировали речь, а затем создавали языковую модель. Подробно о каждом этапе разработки — читайте на нашем сайте. #личный_опыт