@awesomeopensource · Post #142 · 2018/07/21 06:06
Tacotron 2 机器学习TTS的最新成果,使用电脑生成逼真的语音音频,在中文语音合成方面也已经取得进展,很快我们就可以告别讯飞,百度非自由TTS的垄断了。 Tensorflow实现 Rayhane-mamah/Tacotron-2 PyTorch实现 NVIDIA/tacotron2 Tags: #TTS
Hashtags
#文本转语音#语音合成#人工智能#TTS#克隆#特别推荐 ㅤ 🎤标杆级开源语音大模型 VoxCPM:零样本克隆,让机器拥有“情感灵魂”! ㅤ 近期,由 OpenBMB 推出的文本转语音(TTS)系统 VoxCPM 火爆整个 AI 圈!该项目凭借惊艳的生成效果,目前在 GitHub 上已狂揽近 1.2 万颗 Star🌟,并曾强势登顶 GitHub 和 HuggingFace 的趋势榜首,是当下最受关注的开源语音项目之一! ㅤ ✨ 核心黑科技一览: ㅤ • 🗣️突破性无分词器: 抛弃传统离散设计,直接生成连续语音,告别机械感,声音极其自然连贯。 • 🌍精通 30 国语言: 原生支持中、英、日、法等 30 种语言及 9 种中文方言,无需手动切换,多语种混排毫无压力。 • 🎨一句话“捏”音色: 零样本生成!无需提供任何参考音频,只需输入文字描述(如“年轻女性,声音温柔甜美”),即可凭空创造出全新声音。 • 🎛️极致声音克隆: 仅需几秒参考音频,就能完美复刻原声的音色、情感、停顿甚至是呼吸节奏。 • 🎧48kHz 录音室音质: 自带超分黑科技,即便是 16kHz 的低音质输入,也能直接输出 48kHz 的高清录音室级音质。 • ⚡极速流式推理: 搭配专属并发引擎,延迟极低(RTX 4090 下 RTF 低至 0.13),完美适配实时语音交互对话。 📝支持的中国方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话 🔘@TossLab🔘@TossLabChannel
@awesomeopensource · Post #142 · 2018/07/21 06:06
Tacotron 2 机器学习TTS的最新成果,使用电脑生成逼真的语音音频,在中文语音合成方面也已经取得进展,很快我们就可以告别讯飞,百度非自由TTS的垄断了。 Tensorflow实现 Rayhane-mamah/Tacotron-2 PyTorch实现 NVIDIA/tacotron2 Tags: #TTS
Hashtags
@ShareCentre · Post #7197 · 2026/04/16 06:03
Google 发布 Gemini 3.1 Flash TTS:200+ 音频标签精确控制语音风格,支持 70+ 语言 Google 于 4 月 15 日发布 Gemini 3.1 Flash TTS,迄今最具表现力和可控性的文本转语音模型。核心创新是音频标签(Audio Tags)——在文本中嵌入 [excitement]、[whisper] 等自然语言指令,精确控制语音风格、语速和情绪。Artificial Analysis TTS 排行榜 Elo 1211 分,位于「质量-价格最优象限」。 📎 关键特性 - 200+ 音频标签:涵盖情绪、语速、口音、语调,嵌入文本即生效 - 导演模式:AI Studio 中设置场景上下文,角色跨多轮保持入戏 - 角色级精细控制:独立 Audio Profile + Director's Notes + 行内标签句中切换 - 原生多说话人对话 - 一键导出 API 代码,跨项目语音一致 - 70+ 语言支持(24 种高质量评估语言) - SynthID 水印防滥用 ⚙️ 可用渠道 - 开发者:Gemini API + Google AI Studio 预览 - 企业:Vertex AI 预览 - Workspace 用户:Google Vids 🔙 背景 - 3/26 发布 Gemini 3.1 Flash Live(实时对话语音,ComplexFuncBench 90.8%),Flash TTS 补齐「生成」维度 - 同日发布 Gemini CLI Subagents 和 Mac 原生应用,产品节奏创纪录 - 近期还发布了 Chrome Skills(4/14)、Gemma 4 开源(4/2)等 ⚔️ 竞品 - ElevenLabs:克隆质量高,但标签控制粒度不及 - 小米 MiMo-V2-TTS:唯一商用说唱一体,语言覆盖较窄 - 阿里 Qwen3.5-Omni:语音克隆 WER 6.24 领先,TTS 为全模态附属 - OpenAI GPT-4o Voice:对话自然,缺乏开发者级 TTS 控制 Google 差异化:200+ 音频标签 + 导演级 Studio 界面 + 70+ 语言 + SynthID 水印 🔗 链接 官方博客:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/ AI Studio 体验:https://aistudio.google.com/generate-speech Vertex AI:https://console.cloud.google.com/vertex-ai/studio/media/speech 模型卡片:https://deepmind.google/models/model-cards/gemini-3-1-flash-audio/ #Google#AI#TTS#Gemini#语音合成#AudioTags
#人工智能重大喜报!在用户使用 OpenClaw 操作 Gmail 邮箱被封号后,现在谷歌推出官方的 CLI 工具帮助龙虾连接谷歌云端服务。 支持的包括但不限于 Gmail 邮箱、谷歌云端硬盘、谷歌表格等产品,支持个人和企业账户,内置 40 多种智能体技能,可以直接检索文件、管理消息、安排日程和与文档交互等。 查看全文:https://ourl.co/112082?t 🤪订阅😁Twitter👍CN2VPS❓解封
Hashtags
@ShareCentre · Post #7097 · 2026/03/19 01:36
🚀 小米发布 MiMo-V2 系列:旗舰大模型 + 全模态 + 语音合成三箭齐发 小米 MiMo 团队于 3 月 18 日一口气发布三款新模型:MiMo-V2-Pro(旗舰基座)、MiMo-V2-Omni(全模态)和 MiMo-V2-TTS(语音合成),全面覆盖文本推理、多模态感知与语音表达,标志小米 AI 从「追赶者」迈向全球第一梯队。 📌 MiMo-V2-Pro:Agent 时代的大脑 - 总参数超 1T,激活 42B(Flash 的 3 倍),支持 1M token 上下文 - Artificial Analysis 综合智力指数全球第 8、中国大模型第 2 - 编码能力超越 Claude 4.6 Sonnet,Agent 能力(ClawEval 61.5)接近 Opus 4.6(66.3) - 此前以匿名代号「Hunter Alpha」上架 OpenRouter,日调用量多次登顶,总用量超 1T tokens - 定价:输入 $1 / 输出 $3 per 1M tokens(≤256K),仅为 Claude Sonnet 4.6 的 1/3 至 1/5 - 与 OpenClaw、OpenCode、KiloCode、Blackbox、Cline 五大框架合作,提供一周免费 API 📌 MiMo-V2-Omni:看、听、行动,一个模型搞定 - 统一图像、视频、音频编码器,原生全模态感知 - 音频理解超越 Gemini 3 Pro,支持超 10 小时连续音频 - 图像理解超越 Claude Opus 4.6,视频理解具备未来预测能力 - Agent 基准(MM-BrowserComp、OmniGAIA、Claw Eval)超越 Gemini 3 Pro 和 GPT-5.2 - 实测:全自动浏览器购物(小红书选购 → 京东下单 → 客服砍价)、端到端视频制作并上传抖音 - 原生支持结构化工具调用和 UI grounding,可直接接入 Agent 框架 📌 MiMo-V2-TTS:给 Agent 一个有灵魂的声音 - 超 1 亿小时语音数据预训练 + 多维度强化学习 - 自然语言风格指令:用文字描述想要的语气,无需预设标签 - 支持方言(东北话、四川话、粤语等)和角色扮演(孙悟空、林黛玉) - 细粒度非语言事件:笑声、叹气、咳嗽、犹豫自然融入语音 - 唯一同时支持说话和唱歌的商用 TTS API - 自动从文本语境推断情感和语气,无需额外标注 🔙 背景 - MiMo-V1(2025年4月):7B 推理模型,性能超越 OpenAI o1-mini,开源但市场反响平淡 - MiMo-V2-Flash(2025年12月):309B/15B MoE 模型,代码能力开源第一,比肩 Claude 4.5 Sonnet,API 定价极低(输入 $0.1/M,输出 $0.3/M) - 团队由前 DeepSeek 核心成员罗福莉领导,被称为「95后AI天才少女」 ⚔️ 竞品对比 - MiMo-V2-Pro vs Claude Opus 4.6:Agent 能力接近但定价远低;编码已超越 Sonnet 4.6 - MiMo-V2-Omni vs Gemini 3 Pro:音频理解和 Agent 基准多项超越 - MiMo-V2-TTS vs 传统 TTS:从「下拉菜单选情绪」到「自然语言描述」的范式转变 🏢 小米 AI 近况 小米 MiMo 团队在短短一年内完成了从 7B 小模型到万亿参数旗舰、从纯文本到全模态的完整跃迁。此次三款模型同时发布,展现出系统性的 AI 战略布局:Pro 负责推理与编码核心,Omni 补全感知与行动闭环,TTS 赋予 Agent 自然语音交互能力。 📎 来源 小米官网 MiMo-V2-Pro:https://mimo.xiaomi.com/mimo-v2-pro 小米官网 MiMo-V2-Omni:https://mimo.xiaomi.com/mimo-v2-omni 小米官网 MiMo-V2-TTS:https://mimo.xiaomi.com/mimo-v2-tts #小米#MiMo#AI大模型#AIAgent#全模态#TTS#语音合成
@esimhelp · Post #2778 · 2026/02/13 04:27
#人工智能谷歌批量封禁海量 Google Antigravity 账号,用户若尝试提取 OAuth 令牌将其放到 OpenClaw 以及其他工具使用,则会被封号。 谷歌将提取令牌绕过限制的行为视为违反服务条款,即便是 AI Pro 付费用户也被封号,说到底就是禁止这种违规提取令牌海量消耗 Token 的做法,能解封吗?也能。 查看全文:https://ourl.co/111819?t 🤪订阅😁Twitter👍CN2VPS
Hashtags
@ripaojiedian · Post #8149 · 2024/02/20 10:30
#配音#文本转语音 网站名称:琅琅配音 网站介绍:琅配音是一款免费的文本转语音工具,提供语音合成服务,支持多种语言,以及多种语音风格。您可以用它制作视频配音,也可用于有声书朗读,或产品营销内容制作。琅琅配音可免费合成语言,并免费下载音频文件用于商业用途。 需登录,手机号码瞎填就行 网站地址:https://www.lang123.top 🚀更多分享在: @ripaojiedian
@SolidotR · Post #4486 · 2026/02/08 10:09
AI 热导致短缺无处不在 #人工智能 美国五大科技公司亚马逊、Google、微软、Meta 和甲骨文今年计划在 AI 上投资大约 7000 亿美元,但在可预计的未来 AI 投资获得的回报远低于支出。而在 AI 上的巨额投资已经让整个世界体验到了无处不在的短缺。熟练电工越来越难以找到,非数据中心建筑项目被迫暂停,智能手机价格未来几年会继续上涨,有前景的创新面临资金不足的困境。知名投资人 Roger McNamee 称,自 2022 年中期以来,美国在 AI 领域的投资额可能超过了此前整个科技行业的所有投资总额。苹果上周通知投资者,该公司在采购 iPhone 和 Mac 电脑所需的两种关键芯片上遇到了困难。CEO Tim Cook 不愿意讨论是否会涨价。非 AI 创业公司的融资额降至十年来的最低点。 https://www.washingtonpost.com/technology/2026/02/07/ai-spending-economy-shortages/
Hashtags
@SolidotR · Post #4456 · 2026/02/05 01:25
AI 真的是裁员的原因? #人工智能 2025 年逾五万次裁员事件都将 AI 列为理由。企业高管表示 AI 技术将会带来巨大变革因此需要裁员。怀疑者认为,企业是故意把 AI 作为裁员的借口。这种做法称为之“A.I.-washing”。很多以 AI 为借口裁员的企业并没有成熟且经过验证的 AI 应用填补职位空缺,它们是将出于财务动机的裁员归因于未来的 AI 落地。沃顿商学院教授 Peter Cappelli 表示,企业声称预计会引入 AI 取代这些工作,但这种情况没有发生。AI 最终很可能会改变就业市场,但 AI 尚未对整体市场产生实质性的影响。Layoffs.fyi 统计显示,自 2022 年以来全球科技公司裁员逾 70 万人,其中很大一部分是为了纠正新冠状疫情期间的过度招聘。对公众而言,以 AI 为理由裁员可能不受欢迎,但相比其它原因如公司计划不周,AI 反而可能更容易被接受。 https://www.nytimes.com/2026/02/01/business/layoffs-ai-washing.html https://www.challengergray.com/wp-content/uploads/2026/01/Challenger-Report-December-2025.pdf
Hashtags
@SolidotR · Post #4454 · 2026/02/04 01:54
中国少年班人才项目为 AI 竞争源源不断输送人才 #人工智能 FT 报道了中国的一种选拔有天赋少年人才进行特殊培养的特教模式,此类特培的最早例子当属中国科技大学的少年班,过去二十年还出现了清华姚班、北大图灵班等特殊培养班。这些特培班为 AI 和科技公司输送了核心技术人才。中科大少年班培养的 3167 名毕业生中,18%-20% 留在学界,逾 200 人成为国内外名校和科研机构教授。去年初引发广泛关注的 DeepSeek 其逾百名研发团队大多数都来自这些特培班。今天中国每年有 500 万 STEM 专业毕业生,相比之下美国约 50 万。在 2025 年中国派出的 23 名参加国际科学奥林匹克竞赛的学生有 22 名获得了金牌。 https://news.slashdot.org/story/26/02/02/1359211/chinas-decades-old-genius-class-pipeline-is-quietly-fueling-its-ai-challenge-to-the-us
Hashtags
@SolidotR · Post #4443 · 2026/02/03 05:42
Mozilla 为 Firefox 提供禁用所有 AI 功能的选项 #人工智能 Mozilla 宣布为 Firefox 用户提供禁用所有 AI 功能的选项。从 2 月 24 日推出的 Firefox 148 起,用户可以在设置中启用“Block AI enhancements”选项,一旦启用,用户将不会看到任何现在或未来 AI 功能的弹出窗口或提醒。新的 AI 控制选项还允许用户单独管理各项 AI 功能。Mozilla 新 CEO Anthony Enzor-DeMeo 表示,AI 应该始终是一种选择,可以关闭,让用户知道如何运作,能带来什么价值。 https://blog.mozilla.org/en/firefox/ai-controls/
Hashtags
@SolidotR · Post #4442 · 2026/02/03 05:42
微软考虑收缩 Windows 11 的 AI 战略 #人工智能 知情人士透露,微软正在重新评估 Windows 11 的 AI 战略,收缩或移除 Windows 内置应用与 AI 应用 Copilot 的集成。过去几个月 Windows 深度整合 AI 遭遇了用户的强烈反对。微软正在评估记事本和画图等应用中的 Copilot 功能,可能会完全移除相关功能或移除 Copilot 标识以提供更简洁的用户体验。微软已经暂停了在其它内置应用中引入 Copilot 按钮的工作。早先引发争议的 Windows Recall 功能也在接受评估,微软内部认为目前的实现方案是失败的,探索重新设计或重命名该功能,但没有完全放弃。 https://tech.slashdot.org/story/26/02/02/1826219/microsoft-weighs-retreat-from-windows-11-ai-push-reviews-copilot-integrations-and-recall
Hashtags
@SolidotR · Post #4426 · 2026/01/31 13:03
九成 DuckDuckGo 用户反对 AI 功能 #人工智能 以隐私为卖点的搜索引擎 DuckDuckGo 调查了其用户对 AI 功能的态度,结果显示用户压倒性多数的反对 AI:在 175,354 名参与投票的用户中,九成用户表示不希望使用 AI。DuckDuckGo 为此推出了两个版本:反 AI 用户可选择访问 noai.duckduckgo.com,想要 AI 功能的用户可访问 yesai.duckduckgo.com。用户还可以在主站设置中禁用 AI 摘要、AI 生成图像以及 Duck.ai 聊天机器人。 https://voteyesornoai.com/ https://search.slashdot.org/story/26/01/30/182230/duckduckgo-users-vote-overwhelmingly-against-ai-features
Hashtags