TGTGInsighttelegram intelligenceLIVE / telegram public index
← PHYGITAL+CREATIVE
PHYGITAL+CREATIVE avatar

TGINSIGHT POST

Post #2832

@phygitalcreative

PHYGITAL+CREATIVE

Viżjonijiet127Għadd ta' viżjonijiet
IppubblikatApr 2525/04/2023 06:27
Kontenut

Kontenut tal-post

Поигрался с новым алгоритмом Bark для озвучки текста: в отличии от других доступных алгоритмов, этот умеет и в придыхания, и в копирование голоса (но в коде написано, что как-то ограничили эту функцию из-за этических рисков), и в кучу языков, и даже в пение (!), и все это работает довольно быстро. Что мне больше всего понравилось, что можно в модель передавать помимо текста – эмоции которые алгоритм попробует озвучить. Я протестировал все голоса доступные на русском, и мне кажется лучше всего справились голоса 3 и 5. В общем, собрал все тесты в видео, где этот алгоритм озвучил пикап лайны из моего прошлого поста. ✨ Поиграться онлайн | Исходный код Для тех кто доберется поиграться сам, передавайте это вместе с текстом: [laughter] или [laughs] - и диктор засмеется во время озвучки, [sighs] или [gasps] - озвучит вздох или испуг, [music] - будет музыкальная вставка (не очень хорошо работает), [clears throat] - и диктор прочистит горло, — или ... и нейронка "запнется", как человек, ♪ и нейронка попробует напеть текст, работает не очень стабильно. А если выделить капсом, то алгоритм сделает акцент на этом слове. Я некоторым людям скидывал первый фрагмент из видео, и они подумали что это мой голос ☕️ что забавно - в видео нет настоящих людей. Как по мне, сильная заявка на «Лучший опенсорс алгоритм озвучки 2023»