TGINSIGHT CHAT
Точки над ИИ
@TochkiNadAI
Education• Учимся системной работе с AI • Провожу консультации для бизнеса и команд • В канале удобная навигация, любой AI-сервис в закрепленном посте Автор: Ваня Юницкий Записаться в AI-кэмп: tochkicamp.ru Реклама: @hello_voic Чат: https://shorturl.at/gXE8C
Неодамнешни објави
Ознака: #voice · 6 објави
Објавено 5 фев.
Как же это похоже на естественный диалог. NVIDIA показали PersonaPlex, который умеет говорить, перебивая Это открытая полно-дуплексная speech to speech модель на 7B, собранная на Moshi и Helium, и она слушает входящую речь и параллельно генерирует ответ голосом в реальном времени. Звучит как нормальный живой диалог, с угу да-да, паузами и естественными перебиваниями. Самое классное тут в гибридном управлении: текстом задаете роль и поведение, а коротким аудио примером фиксируете голос, тембр и манеру речи, то есть можно быстро переключать персоны и голоса без долгой возни. Потестите в Nvidia personaplex, вот GitHub, и если у вас получится самый забавный кастомный голос под роль - присылайте! #voice@TochkiNadAI
Hashtags
Објавено 18 ное.
А вот еще кое-что от 11Labs. Распознавлка речи, которая печатает текст почти раньше, чем вы договорили Scribe v2 Realtime явно попытка перезадать стандарт рынка. Задержка до 150 мс, предиктивная транскрипция, когда фразы появляются на экране как будто с отрицательной задержкой, и точность до 93.5% на реальных шумных записях на десятках языков, включая русский. Модель уверенно держит акценты, диалекты, сложные фамилии и профлексику из медицины, финансов и теха, язык можно переключать прямо в живом разговоре, движок сам подстраивается под контекст. В бенчмарках и полевых тестах Scribe v2 обходит Гугл и ОпенАИ по сочетанию скорости и качества, а из минусов остаются разве что редкие микрокоррекции текста в очень сложных мультиспикерных сценах. #voice@TochkiNadAI
Hashtags
Објавено 19 авг.
Text to speech модель, которая звучит хорошо MiniMax на днях выкатили Speech 2.5: - 40 языков от тамильского до африканского, с сохранением акцентов. - Клонирование голоса крутого уровня: тембр, возраст, эмоции, паузы. Все в точности как в оригинале. - Больше естественных интонаций, особенно в английском и китайском (разумеется). Доступно в веб-песочнице MiniMax Audio и через API. #voice@TochkiNadAI
Hashtags
Објавено 19 јун.
Тут кто-то спрашивал недавно про хороший способ клонировать голос Вот одна из лучших моделей (а скорее всего даже лучшая) на данный момент, вышла в начале месяца обновленная OpenAudio S1. Можно быстро клонировать голос, поддерживает кучу эмоций. Тестить тут. #voice@TochkiNadAI
Hashtags
Објавено 5 јун.
Что там по хорошей озвучке? ElevenLabs представили v3-альфа Теперь можно: – Управлять эмоциями и интонацией через аудиотеги – Создавать диалоги с несколькими голосами – Генерировать речь на 70+ языках Тут подробнее. Весь июнь дают скидку в 80% #voice@TochkiNadAI
Hashtags
Објавено 21 ное.
Давно не было про речь PlayDialog — это голосовой ИИ от Play.ai, который умеет красиво говорить, с эмоциями, интонациями и настроением. Подходит для озвучки, подкастов и любых проектов, где нужен реально живой голос. Ещё есть API. Очень естественно звучащий синтез речи. #voice
Hashtags