TGTGInsighttelegram intelligenceLIVE / telegram public index
Назад кон каналите
Точки над ИИ avatar

TGINSIGHT CHAT

Точки над ИИ

@TochkiNadAI

Education

• Учимся системной работе с AI • Провожу консультации для бизнеса и команд • В канале удобная навигация, любой AI-сервис в закрепленном посте Автор: Ваня Юницкий Записаться в AI-кэмп: tochkicamp.ru Реклама: @hello_voic Чат: https://shorturl.at/gXE8C

Претплатници1.5万Тековни претплатници
Следени објави1,011Број на индексирани објави
Неодамнешен опфат20,030Збир на неодамнешни прегледи
Неодамнешни објави

Неодамнешни објави

Ознака: #voice · 6 објави

当前筛选 #voice清除筛选

Објавено 5 фев.

Как же это похоже на естественный диалог. NVIDIA показали PersonaPlex, который умеет говорить, перебивая Это открытая полно-дуплексная speech to speech модель на 7B, собранная на Moshi и Helium, и она слушает входящую речь и параллельно генерирует ответ голосом в реальном времени. Звучит как нормальный живой диалог, с угу да-да, паузами и естественными перебиваниями. Самое классное тут в гибридном управлении: текстом задаете роль и поведение, а коротким аудио примером фиксируете голос, тембр и манеру речи, то есть можно быстро переключать персоны и голоса без долгой возни. Потестите в Nvidia personaplex, вот GitHub, и если у вас получится самый забавный кастомный голос под роль - присылайте! #voice@TochkiNadAI

4,380 views

Hashtags

Објавено 18 ное.

А вот еще кое-что от 11Labs. Распознавлка речи, которая печатает текст почти раньше, чем вы договорили Scribe v2 Realtime явно попытка перезадать стандарт рынка. Задержка до 150 мс, предиктивная транскрипция, когда фразы появляются на экране как будто с отрицательной задержкой, и точность до 93.5% на реальных шумных записях на десятках языков, включая русский. Модель уверенно держит акценты, диалекты, сложные фамилии и профлексику из медицины, финансов и теха, язык можно переключать прямо в живом разговоре, движок сам подстраивается под контекст. В бенчмарках и полевых тестах Scribe v2 обходит Гугл и ОпенАИ по сочетанию скорости и качества, а из минусов остаются разве что редкие микрокоррекции текста в очень сложных мультиспикерных сценах. #voice@TochkiNadAI

3,960 views

Hashtags

Објавено 19 авг.

Text to speech модель, которая звучит хорошо MiniMax на днях выкатили Speech 2.5: - 40 языков от тамильского до африканского, с сохранением акцентов. - Клонирование голоса крутого уровня: тембр, возраст, эмоции, паузы. Все в точности как в оригинале. - Больше естественных интонаций, особенно в английском и китайском (разумеется). Доступно в веб-песочнице MiniMax Audio и через API. #voice@TochkiNadAI

3,490 views

Hashtags

Објавено 19 јун.

Тут кто-то спрашивал недавно про хороший способ клонировать голос Вот одна из лучших моделей (а скорее всего даже лучшая) на данный момент, вышла в начале месяца обновленная OpenAudio S1. Можно быстро клонировать голос, поддерживает кучу эмоций. Тестить тут. #voice@TochkiNadAI

3,370 views

Hashtags

Објавено 5 јун.

Что там по хорошей озвучке? ElevenLabs представили v3-альфа Теперь можно: – Управлять эмоциями и интонацией через аудиотеги – Создавать диалоги с несколькими голосами – Генерировать речь на 70+ языках Тут подробнее. Весь июнь дают скидку в 80% #voice@TochkiNadAI

2,870 views

Hashtags

Објавено 21 ное.

Давно не было про речь PlayDialog — это голосовой ИИ от Play.ai, который умеет красиво говорить, с эмоциями, интонациями и настроением. Подходит для озвучки, подкастов и любых проектов, где нужен реально живой голос. Ещё есть API. Очень естественно звучащий синтез речи. #voice

1,960 views

Hashtags