语音模型 - 财报，业绩电话会，研报，新闻

语音模型

搜索文档

证券日报· 2025-09-24 15:38

产品发布 - 阿里巴巴在2025杭州云栖大会上发布通义百聆语音模型家族包括语音识别大模型Fun-ASR和语音合成大模型Fun-CosyVoice [2] 技术规格 - Fun-ASR基于数千万小时真实语音数据训练具备强大上下文理解能力与行业适应性可实时处理10多种语言 [2] - Fun-CosyVoice提供上百种预制音色适用于客服销售直播电商消费电子有声书儿童娱乐等场景 [2] 市场表现 - 通义百聆开源模型下载量已超5.6亿次 [2]

阿里发布通义百聆语音模型，模型下载量已超5.6亿

新浪科技· 2025-09-24 13:07

产品发布 - 公司在2025杭州云栖大会上发布新语音模型家族通义百聆 [1] - 通义百聆涵盖语音识别大模型Fun-ASR和语音合成大模型Fun-CosyVoice [1] 技术能力 - Fun-ASR基于数千万小时真实语音数据训练具备强大上下文理解能力与行业适应性 [1] - Fun-ASR可实时处理10多种语言 [1] - Fun-CosyVoice可提供上百种预制音色 [1] 应用场景 - 模型适用于客服销售直播电商消费电子有声书儿童娱乐等场景 [1] 市场表现 - 通义百聆开源模型下载量已超5.6亿 [1]

OpenAI杀入语音模型大战，祭出最强GPT-RealTime，加量还降价

36氪· 2025-08-29 14:08

产品发布与功能更新 - OpenAI发布语音转语音模型GPT-RealTime 并更新API功能包括远程MCP服务器支持图像输入和SIP电话呼叫支持 [1] - GPT-RealTime是公司最先进的语音合成模型在遵循复杂指令精确调用工具和生成更自然更具表现力的语音方面有改进 [1] - 模型能自然朗读重复字母数字无缝切换语言捕捉笑声等非语言信号 [1] - 新增两个语音Cedar和Marin 在Realtime API中独家提供 [1] - 增加对对话上下文的细粒度控制允许设置智能token限制一次截断多个回合显著降低长会话成本 [2] 定价与市场反馈 - GPT-RealTime每百万token音频输入价格32美元缓存输入每百万token 0.4美元音频输出每百万token 64美元 [1] - GPT-RealTime相比gpt-4o-realtime-preview价格下调20% [1] - 有用户对模型充满期待称语音应用将更有趣但也有开发者反映声音仍像机器人旧语音角色仅稍微更具表现力 [2] 技术性能与评估 - 在Big Bench Audio评估中 GPT-RealTime准确率82.8% 超过2024年12月发布的旧模型 [8] - 在MultiChallenge音频基准测试中 GPT-RealTime得分30.5% 显著高于旧模型的20.6% [10] - 在ComplexFuncBench音频评估中 GPT-RealTime得分66.5% 超过旧模型的49.7% [13] - 改进异步函数调用长时间运行的函数调用不再中断会话流程模型可在等待结果时继续对话 [13] 行业竞争与进展 - 国内大模型MiniMax推出语音生成模型Speech 2.5 覆盖超40个语种 [3] - 豆包App更新实时语音通话功能免费开放可模仿不同声线并进行情绪感知 [3] - 微软推出高度表现力和自然语音生成模型MAI-Voice-1 同一提示词可生成不同表现音频 [3] 应用场景与合作伙伴 - 与美国房地产信息平台Zillow合作模型可自然交谈帮助筛选房源或分析购买价格 [5] - 与T-Mobile合作 AI助手能快速交替对话即使被打断或开启新话题也不受影响 [5] - 与票务平台StubHub合作模型可帮助用户付款并指导付款过程问题 [6] - 与Oscar Health合作模型可帮用户确认空闲预约时间注意事项和地址 [7] - 与保险科技公司Lemonade合作 AI助手可在对话中获取用户诉求根据内部储存信息进行购买操作 [7] API功能与技术特性 - Realtime API通过单个模型和API直接处理生成音频减少延迟保留语音细微差别使响应更自然 [16] - 新增远程MCP服务器支持连接后API自动处理工具调用无需手动设置集成 [16] - 支持图像输入开发者可在会话中添加图像照片和截图与音频或文本一起使用 [16] - 新增SIP支持通过API直接连接应用程序到公共电话网络 PBX系统和其他SIP终端 [17] - 新增可重用提示功能允许保存和重用提示包含开发者消息工具变量及示例消息支持跨会话使用 [17] 安全防护措施 - Realtime API包含多层安全防护和缓解措施采用主动分类器检测到违反有害内容指南时可中止对话 [18] - 开发者可使用Agents SDK添加额外安全防护措施 [18]

语音模型

Artificial Intelligence

Artificial Intelligence

Realtime API

GPT-RealTime

MAI-Voice-1