Post #1116

@TochkiNadAI

Точки над ИИ

Прегледи4,630Број на прегледи

Објавено30 апр.30.04.2025 г., 13:01

Содржина

Содржина на објавата

Открытая TTS-модель, которая умеет кричать, смеяться и звучать почеловечески Проект Dia 1.6B — это не лаборатория OpenAI и не результат многомиллионного RnD. Это работа двух студентов из Кореи без бюджета, компании и предыдущего опыта в AI. Один из них вообще ещё в армии))) Но результат впечатляющий. Dia — это открытая голосовая модель с 1,6 млрд параметров, способная выдавать речь с эмоциями, менять голос, имитировать крики, смех и кашель, и запускаться локально без ограничений. Идея появилась, когда ребята залипли в фичу подкастов от NotebookLM, но захотели большего. Попробовали все TTS API, не понравилось. Потом Google дал им доступ к TPU и они за три месяца выкатили полноценную модель, обученную с нуля. Звучит дико, но это правда круто 🔗GitHub 🔗HuggingFace #speechSynthesis@TochkiNadAI