Workflow
Voxtral模型
icon
搜索文档
OpenAI发布端对端语音模型GPT-Realtime,助力开发者构建语音智能体
36氪· 2025-08-31 00:34
产品发布与定价 - 公司发布迄今最先进的端对端语音模型GPT-Realtime并宣布Realtime API全面进入生产环境 [1] - 新模型定价较上一代产品GPT-4o-Realtime-Preview降低20% 输入tokens价格从每百万40美元降至32美元 输出tokens从每百万80美元降至64美元 [1] - 新增对话上下文管理功能 允许开发者灵活设置token限制并一次性截断多轮对话以降低长会话成本 [2] 技术性能提升 - 新模型在遵循复杂指令 精确调用工具及生成更自然富有表现力的语音方面显著进步 [3] - 支持在一句话中无缝切换多种语言 并能识别非语言信号如笑声 [3][5] - 在Big Bench Audio推理测试中准确率达82.8% 显著高于GPT-4o-Realtime-Preview在2024年12月的65.6%和2024年6月的81.5% [5] - 在MultiChallenge Audio测试中指令执行准确率达30.5% 优于上一代产品的20.6%(2024年12月)和26.5%(2024年6月) [7] - 在ComplexFuncBench Audio测试中函数调用准确率达66.5% 支持异步调用 优于上一代产品的49.7%(2024年12月)和58.9%(2024年6月) [10] - 新增支持图像输入功能 可识别照片或截图内容 [10] - 新增两种API专用语音Cedar和Marin 展现最显著的自然语音改进 [10] API功能升级 - Realtime API通过单一模型直接处理音频 降低延迟并保留语音细节 [11] - 新增支持远程模型上下文协议(MCP)服务器 简化AI模型与外部数据的连接 [12] - 新增支持图像输入 启用多模态对话能力 [12] - 新增会话发起协议(SIP)支持 允许与公共电话网络及企业电话端点集成 [12] - 早期采用者Zillow证实新API具备更强推理能力和更自然语音 能处理复杂多步骤请求 [12] 行业竞争格局 - 语音AI市场竞争白热化 Anthropic于2024年5月为Claude AI推出语音模式 Meta于2024年7月以4500万美元收购语音初创公司PlayAI [13] - 开源社区力量显著 法国初创公司Mistral发布Voxtral模型 承诺服务价格低于同类API一半 小米发布自研声音理解大模型MiDashengLM-7B [13] - 传统科技巨头持续发力 亚马逊于2024年4月推出实时表现力模型Nova Sonic并集成至Alexa+助手 [14] - 专业初创公司聚焦细分创新 Stability AI研发设备端语音处理技术 Sesame AI通过添加自然停顿等特征打造逼真AI助手 [14]