TGTGInsighttelegram intelligenceLIVE / telegram public index
← Midjourney/Nano Banana Prompts NeuroSpark

TGINSIGHT SIMILAR POSTS

Trouver du contenu similaire

Chaîne source @Shutter · Post #4607 · 22 mai

Harbor, cargo port, ships #AI#artificial_Intelligence

Résultats

1 post similaire trouvé

Recherche : #realtimeapi

当前筛选 #realtimeapi清除筛选
AI一线|ShareCentre

@ShareCentre · Post #7272 · 08/05/2026 03:01

OpenAI 推出三款实时语音模型:GPT-Realtime-2 让语音 Agent 具备 GPT-5 级推理 OpenAI 于 2026 年 5 月 7 日宣布在 API 中推出三款新一代实时语音模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。 这次更新的核心方向,是把语音交互从简单的“听一句、答一句”,推进到可以边听、边推理、边翻译、边转写、边调用工具执行任务的实时语音 Agent。 ⚙️ 三款模型 - GPT-Realtime-2:OpenAI 首个具备 GPT-5 级推理能力的实时语音模型,支持持续对话、工具调用、打断恢复、并行工具调用和更自然的语气控制 - GPT-Realtime-Translate:支持 70 多种输入语言,并可翻译成 13 种输出语言,面向跨语言客服、跨境销售、教育、活动和媒体内容 - GPT-Realtime-Whisper:新的低延迟流式语音转文本模型,可在用户说话时同步生成转写,适用于实时字幕、会议记录、课堂转写和客服流程 📊 关键数据 - GPT-Realtime-2 上下文窗口从 32K 提升至 128K - GPT-Realtime-2(high)在 Big Bench Audio 上较 GPT-Realtime-1.5 提升 15.2% - GPT-Realtime-2(xhigh)在 Audio MultiChallenge 上提升 13.8% - Zillow 早期测试称,GPT-Realtime-2 将其困难对抗性语音任务通话成功率从 69% 提升到 95% 💰 定价 - GPT-Realtime-2:音频输入每 100 万 token 32 美元,缓存输入 0.40 美元,音频输出每 100 万 token 64 美元 - GPT-Realtime-Translate:每分钟 0.034 美元 - GPT-Realtime-Whisper:每分钟 0.017 美元 三款模型已在 Realtime API 中开放,并可通过 Playground 测试。 📎 背景补充 这次发布延续了 OpenAI 从“文本对话”向“实时多模态 Agent”扩展的路线。OpenAI 早在 2025 年推出新一代音频模型时,就已经开始强调语音合成的可控性和语音识别准确率;此后 Realtime API 逐步成为开发者构建低延迟语音 Agent 的核心入口。 从竞争格局看,语音 AI 正在快速从“能听能说”进入“能执行任务”的阶段。Google 近期推出 Gemini 3.1 Flash Live,主打复杂语音函数调用和实时对话能力;随后又发布 Gemini 3.1 Flash TTS,通过 200 多种音频标签精确控制语音风格。阿里 Qwen3.5-Omni、小米 MiMo-V2-Omni 等中国厂商也在全模态理解和语音合成维度快速追赶。 值得注意的是,OpenAI 这次把语音能力明确绑定到 Agent 工作流,而不是单独定位为转写或朗读工具。Zillow、Priceline、Deutsche Telekom、Vimeo 等案例显示,OpenAI 正在推动语音模型进入房产、旅行、跨语言客服和视频内容本地化等具体商业场景。语音不再只是 ChatGPT 的一种交互方式,而正在成为企业软件调用工具、完成任务和连接用户的实时入口。 🔗 来源 OpenAI 官方: https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/ #AI#OpenAI#语音AI#RealtimeAPI#AIAgent