Voxtral模型 - 财报，业绩电话会，研报，新闻

Voxtral模型

搜索文档

OpenAI发布端对端语音模型GPT-Realtime，助力开发者构建语音智能体

36氪· 2025-08-31 00:34

产品发布与定价 - 公司发布迄今最先进的端对端语音模型GPT-Realtime并宣布Realtime API全面进入生产环境 [1] - 新模型定价较上一代产品GPT-4o-Realtime-Preview降低20% 输入tokens价格从每百万40美元降至32美元输出tokens从每百万80美元降至64美元 [1] - 新增对话上下文管理功能允许开发者灵活设置token限制并一次性截断多轮对话以降低长会话成本 [2] 技术性能提升 - 新模型在遵循复杂指令精确调用工具及生成更自然富有表现力的语音方面显著进步 [3] - 支持在一句话中无缝切换多种语言并能识别非语言信号如笑声 [3][5] - 在Big Bench Audio推理测试中准确率达82.8% 显著高于GPT-4o-Realtime-Preview在2024年12月的65.6%和2024年6月的81.5% [5] - 在MultiChallenge Audio测试中指令执行准确率达30.5% 优于上一代产品的20.6%（2024年12月）和26.5%（2024年6月） [7] - 在ComplexFuncBench Audio测试中函数调用准确率达66.5% 支持异步调用优于上一代产品的49.7%（2024年12月）和58.9%（2024年6月） [10] - 新增支持图像输入功能可识别照片或截图内容 [10] - 新增两种API专用语音Cedar和Marin 展现最显著的自然语音改进 [10] API功能升级 - Realtime API通过单一模型直接处理音频降低延迟并保留语音细节 [11] - 新增支持远程模型上下文协议（MCP）服务器简化AI模型与外部数据的连接 [12] - 新增支持图像输入启用多模态对话能力 [12] - 新增会话发起协议（SIP）支持允许与公共电话网络及企业电话端点集成 [12] - 早期采用者Zillow证实新API具备更强推理能力和更自然语音能处理复杂多步骤请求 [12] 行业竞争格局 - 语音AI市场竞争白热化 Anthropic于2024年5月为Claude AI推出语音模式 Meta于2024年7月以4500万美元收购语音初创公司PlayAI [13] - 开源社区力量显著法国初创公司Mistral发布Voxtral模型承诺服务价格低于同类API一半小米发布自研声音理解大模型MiDashengLM-7B [13] - 传统科技巨头持续发力亚马逊于2024年4月推出实时表现力模型Nova Sonic并集成至Alexa+助手 [14] - 专业初创公司聚焦细分创新 Stability AI研发设备端语音处理技术 Sesame AI通过添加自然停顿等特征打造逼真AI助手 [14]