Workflow
语音模型
icon
搜索文档
OpenAI杀入语音模型大战,祭出最强GPT-RealTime,加量还降价
36氪· 2025-08-29 14:08
产品发布与功能更新 - OpenAI发布语音转语音模型GPT-RealTime 并更新API功能 包括远程MCP服务器支持 图像输入和SIP电话呼叫支持 [1] - GPT-RealTime是公司最先进的语音合成模型 在遵循复杂指令 精确调用工具和生成更自然 更具表现力的语音方面有改进 [1] - 模型能自然朗读重复字母数字 无缝切换语言 捕捉笑声等非语言信号 [1] - 新增两个语音Cedar和Marin 在Realtime API中独家提供 [1] - 增加对对话上下文的细粒度控制 允许设置智能token限制 一次截断多个回合 显著降低长会话成本 [2] 定价与市场反馈 - GPT-RealTime每百万token音频输入价格32美元 缓存输入每百万token 0.4美元 音频输出每百万token 64美元 [1] - GPT-RealTime相比gpt-4o-realtime-preview价格下调20% [1] - 有用户对模型充满期待 称语音应用将更有趣 但也有开发者反映声音仍像机器人 旧语音角色仅稍微更具表现力 [2] 技术性能与评估 - 在Big Bench Audio评估中 GPT-RealTime准确率82.8% 超过2024年12月发布的旧模型 [8] - 在MultiChallenge音频基准测试中 GPT-RealTime得分30.5% 显著高于旧模型的20.6% [10] - 在ComplexFuncBench音频评估中 GPT-RealTime得分66.5% 超过旧模型的49.7% [13] - 改进异步函数调用 长时间运行的函数调用不再中断会话流程 模型可在等待结果时继续对话 [13] 行业竞争与进展 - 国内大模型MiniMax推出语音生成模型Speech 2.5 覆盖超40个语种 [3] - 豆包App更新实时语音通话功能 免费开放 可模仿不同声线并进行情绪感知 [3] - 微软推出高度表现力和自然语音生成模型MAI-Voice-1 同一提示词可生成不同表现音频 [3] 应用场景与合作伙伴 - 与美国房地产信息平台Zillow合作 模型可自然交谈 帮助筛选房源或分析购买价格 [5] - 与T-Mobile合作 AI助手能快速交替对话 即使被打断或开启新话题也不受影响 [5] - 与票务平台StubHub合作 模型可帮助用户付款并指导付款过程问题 [6] - 与Oscar Health合作 模型可帮用户确认空闲预约时间 注意事项和地址 [7] - 与保险科技公司Lemonade合作 AI助手可在对话中获取用户诉求 根据内部储存信息进行购买操作 [7] API功能与技术特性 - Realtime API通过单个模型和API直接处理生成音频 减少延迟 保留语音细微差别 使响应更自然 [16] - 新增远程MCP服务器支持 连接后API自动处理工具调用 无需手动设置集成 [16] - 支持图像输入 开发者可在会话中添加图像 照片和截图 与音频或文本一起使用 [16] - 新增SIP支持 通过API直接连接应用程序到公共电话网络 PBX系统和其他SIP终端 [17] - 新增可重用提示功能 允许保存和重用提示 包含开发者消息 工具 变量及示例消息 支持跨会话使用 [17] 安全防护措施 - Realtime API包含多层安全防护和缓解措施 采用主动分类器 检测到违反有害内容指南时可中止对话 [18] - 开发者可使用Agents SDK添加额外安全防护措施 [18]