Содержимое
⚡️Сбер представил новую систему синтеза речи для ГигаЧата — в одной модели используются сразу несколько разных уникальных голосов под разные задачи Обновление позволяет генерировать речь в различных манерах — от естественного Freespeech для общения до подкастного формата, интонаций операторов и традиционного дикторского стиля. Звучание стало более органичным и приближенным к человеческому. Что умеет новый синтез: - для разных кейсов применения синтеза сделаны отдельные голоса воспроизводит паузы, смысловые акценты и эмоциональную окраску - построен на собственной разработке: GigaChat 3b как основа, специализированный токенизатор и адаптер к LLM - умеет озвучивать тексты бесконечной длины с учетом контекста, а также клонировать голоса - внутренние замеры демонстрируют прогресс в качестве и натуральности звука Зачем это нужно: - помогает создавать более органичные голосовые интерфейсы - оптимален для разговорных ассистентов, озвучки подкастов или аудиокниг, а также в автоматизированных колл-центрах Основные преимущества: - есть возможность выбора голоса, которые подходят под разные задачи - управление стилистикой и эмоциями на естественном языке - самый живой синтез речи, ни у Алисы, ни у OpenAI ничего похожего нет Новый синтез уже доступен в Voice Mode Гигачата. @ai_machinelearning_big_data #ai#ml#speech#llm