Содржина на објавата
Открытая TTS-модель, которая умеет кричать, смеяться и звучать почеловечески Проект Dia 1.6B — это не лаборатория OpenAI и не результат многомиллионного RnD. Это работа двух студентов из Кореи без бюджета, компании и предыдущего опыта в AI. Один из них вообще ещё в армии))) Но результат впечатляющий. Dia — это открытая голосовая модель с 1,6 млрд параметров, способная выдавать речь с эмоциями, менять голос, имитировать крики, смех и кашель, и запускаться локально без ограничений. Идея появилась, когда ребята залипли в фичу подкастов от NotebookLM, но захотели большего. Попробовали все TTS API, не понравилось. Потом Google дал им доступ к TPU и они за три месяца выкатили полноценную модель, обученную с нуля. Звучит дико, но это правда круто 🔗GitHub 🔗HuggingFace #speechSynthesis@TochkiNadAI