Workflow
语音AI
icon
搜索文档
赛道Hyper | 阿里Fun-ASR:语音AI新阶段演进方向
华尔街见闻· 2025-09-01 10:49
技术特点 - 新一代端到端语音识别大模型Fun-ASR具备更强的上下文感知和高精度转写能力 能听懂家装 畜牧等十大行业专业术语 并支持企业专属模型定制训练 [1] - 模型在转写时能结合前后文信息 避免多轮对话中出现语义漂移 例如在会议纪要场景中持续跟踪专有名词或特定语境 [6] - 在口音 噪声 跨领域专业词汇场景下提升鲁棒性 使系统在面对不确定性 干扰或异常情况时仍能保持稳定运行和可靠输出 [6] - 通过统一网络结构直接将语音映射为文本 降低系统复杂度 并为多轮语境理解奠定基础 [4] 应用场景 - 目前已进入会议字幕 同传 智能纪要 语音助手等场景 [8] - 在企业会议中转写不仅能记笔记 而是能形成结构化文档直接进入知识管理系统 在客服场景中识别结果可实时联动知识库帮助生成回答 [9] - 在教育和医疗领域 上下文理解力让转写结果更符合专业表达 减少误判 [9] - 语音识别正在向语音驱动的工作流过渡 成为数字生产力的一部分 而不仅是工具层的功能 [9] 战略定位 - 通过阿里云百炼平台服务B端客户 优先强化企业级生态 再逐步扩展到其他产品 [10][11] - 嵌入百炼平台意味着不仅是一个模型 更是平台化服务 定位为模型即基础设施 使语音识别成为企业云计算中的常备模块 [13] - 以云+企业服务为轴心 推动阿里云形成AI工具集 加速企业对阿里云平台的依赖 [14][15] - 在中文场景下的定制化与上下文感知可能成为其核心优势 与国际模型形成差异化竞争 [11] 行业趋势 - 语音AI交互方式正从听得懂迈向理解语境 反映语音AI整体格局的一个潜在转折点 [2] - 语音识别商业价值不再局限于单点应用 正逐步成为数字基础设施 类似OCR一旦准确率足够高就能无形融入各种系统 [12] - 未来语音AI可能与多模态模型融合 真正做到听 看 说 懂一体化 例如会议中同时识别语音与PPT内容生成更精准纪要 [13] - 语音识别逐渐成为人类不再意识到却无处不在的存在 未来AI交互很可能不是点击或输入而是自然对话 [20][21]
OpenAI发布端对端语音模型GPT-Realtime,助力开发者构建语音智能体
36氪· 2025-08-31 00:34
产品发布与定价 - 公司发布迄今最先进的端对端语音模型GPT-Realtime并宣布Realtime API全面进入生产环境 [1] - 新模型定价较上一代产品GPT-4o-Realtime-Preview降低20% 输入tokens价格从每百万40美元降至32美元 输出tokens从每百万80美元降至64美元 [1] - 新增对话上下文管理功能 允许开发者灵活设置token限制并一次性截断多轮对话以降低长会话成本 [2] 技术性能提升 - 新模型在遵循复杂指令 精确调用工具及生成更自然富有表现力的语音方面显著进步 [3] - 支持在一句话中无缝切换多种语言 并能识别非语言信号如笑声 [3][5] - 在Big Bench Audio推理测试中准确率达82.8% 显著高于GPT-4o-Realtime-Preview在2024年12月的65.6%和2024年6月的81.5% [5] - 在MultiChallenge Audio测试中指令执行准确率达30.5% 优于上一代产品的20.6%(2024年12月)和26.5%(2024年6月) [7] - 在ComplexFuncBench Audio测试中函数调用准确率达66.5% 支持异步调用 优于上一代产品的49.7%(2024年12月)和58.9%(2024年6月) [10] - 新增支持图像输入功能 可识别照片或截图内容 [10] - 新增两种API专用语音Cedar和Marin 展现最显著的自然语音改进 [10] API功能升级 - Realtime API通过单一模型直接处理音频 降低延迟并保留语音细节 [11] - 新增支持远程模型上下文协议(MCP)服务器 简化AI模型与外部数据的连接 [12] - 新增支持图像输入 启用多模态对话能力 [12] - 新增会话发起协议(SIP)支持 允许与公共电话网络及企业电话端点集成 [12] - 早期采用者Zillow证实新API具备更强推理能力和更自然语音 能处理复杂多步骤请求 [12] 行业竞争格局 - 语音AI市场竞争白热化 Anthropic于2024年5月为Claude AI推出语音模式 Meta于2024年7月以4500万美元收购语音初创公司PlayAI [13] - 开源社区力量显著 法国初创公司Mistral发布Voxtral模型 承诺服务价格低于同类API一半 小米发布自研声音理解大模型MiDashengLM-7B [13] - 传统科技巨头持续发力 亚马逊于2024年4月推出实时表现力模型Nova Sonic并集成至Alexa+助手 [14] - 专业初创公司聚焦细分创新 Stability AI研发设备端语音处理技术 Sesame AI通过添加自然停顿等特征打造逼真AI助手 [14]
美股异动 SoundHound AI(SOUN.US)大涨超16% 与Acrelec达成语音AI平台合作
金融界· 2025-08-11 23:59
股价表现 - SoundHound AI(SOUN US)股价周一上涨超16%至15 79美元 创半年新高 [1] 业务合作 - 公司与Acrelec达成合作 将Dynamic Drive-Thru语音AI平台与Acrelec数字系统整合 [1] - 合作方案计划部署至全球超过2 5万家餐厅的免下车服务点 [1] - 合作宣布时间为2025年8月11日 [1] 财务表现 - 第二季度收入同比增长217%至4268万美元 [1] - 公司上调全年收入展望至1 6亿-1 78亿美元 [1]
SoundHound AI(SOUN.US)大涨超16% 与Acrelec达成语音AI平台合作
智通财经· 2025-08-11 23:16
股价表现 - SoundHound AI股价周一大幅上涨超16%至15 79美元 创半年新高 [1] 战略合作 - 公司与Acrelec达成合作 将Dynamic Drive-Thru语音AI平台整合至Acrelec数字系统 [1] - 合作方案计划部署至全球超过2 5万家餐厅免下车服务点 [1] 财务表现 - 第二季度收入同比增长217%至4268万美元 [1] - 公司上调全年收入展望至1 6亿-1 78亿美元区间 [1]
首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
机器之心· 2025-06-17 12:50
语音大模型技术综述 核心观点 - 语音语言模型(SpeechLM)通过端到端处理实现自然语音交互,突破传统ASR-LLM-TTS流程的三大痛点:信息丢失、延迟严重、错误累积 [4][5][6] - 该技术由香港中文大学团队系统梳理,形成领域首篇ACL 2025收录的综述论文,包含技术架构、训练策略、评估体系等完整框架 [1][31] 技术架构 核心组件 - **语音分词器**:分为语义理解型/声学生成型/混合型三类,实现音频信号到token的转换 [16] - **语言模型**:基于Transformer的自回归架构,扩展词汇表处理多模态token [16] - **声码器**:将语言模型输出token转换为可听波形,完成最终语音生成 [16] 交互范式 - 全双工建模技术实现实时交互,包含用户中断能力和同时响应能力两大特性 [18] - 流式处理架构支持双向同时通信,突破传统"你说完我再说"的交互模式 [17][18] 训练策略 三阶段流程 - **预训练阶段**:冷启动或基于文本语言模型继续预训练,关键在文本-语音表示空间对齐 [12] - **指令微调阶段**:通过大规模指令数据集赋予多样化任务处理能力 [13] - **后对齐阶段**:采用人类反馈强化学习优化输出质量与安全性 [14] 应用场景 语义相关 - 统一框架支持语音对话/翻译/识别/关键词检测等任务,无需单独训练专用模型 [20] 说话人相关 - 实现说话人识别/验证/分离,支持特定音色语音生成,推动个性化语音助手发展 [21] 副语言学 - 识别情绪状态并生成对应情感色彩的语音,增强交互生动性 [22] 评估体系 多维指标 - 自动评估覆盖表示质量/语言学能力/生成质量等6大维度,建立客观比较基准 [25] - 人工评估采用MOS评分,主观衡量自然度/韵律质量/音色相似度等感知特征 [26] 发展挑战 技术瓶颈 - 需解决组件选择优化/端到端训练/实时生成等技术难题,特别关注安全防护机制建设 [28][29] - 资源稀缺语言支持是推动技术普惠的关键方向 [29]
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
机器之心· 2025-05-15 14:04
国产大模型技术突破 - 国产大模型MiniMax的Speech-02语音大模型在国际权威语音评测榜单Artificial Analysis上登顶,击败OpenAI和ElevenLabs [1] - Speech-02在字错率(WER)和说话人相似度(SIM)等关键指标上取得SOTA结果,WER最低达0.83(中文)和1.65(英文),SIM最高达0.799(中文)和0.738(英文) [1][24] - 该模型成本仅为ElevenLabs竞品模型的1/4,展现出极高的性价比优势 [4] 核心技术创新 - 采用自回归Transformer架构,实现真正意义上的零样本语音克隆,仅需几秒参考音频即可模仿目标说话人特征 [12][14] - 提出Flow-VAE架构,通过流匹配模型增强语音生成质量,使合成语音更接近真人 [13][17] - 引入T2V框架,结合自然语言描述与结构化标签信息,实现高度灵活可控的音色生成 [21] 多语言与跨语言能力 - 支持32种语言,在中英、粤语、葡萄牙语、法语等语种表现突出 [38] - 在24种测试语言中SIM指标均显著优于ElevenLabs multilingual_v2模型 [26] - 跨语言测试显示WER表现优异,如越南语WER仅0.659,泰语2.826,阿拉伯语1.446 [28] 产品特性与用户体验 - 提供超拟人化语音合成,预置数百种多语言声音库,错误率比真人更低 [32][33] - 支持声音克隆功能,用户可通过简短录音获得专属AI语音 [34][36] - 提供7种情绪控制选项(悲伤、快乐、生气等),可调节语速和语调 [36][37] 商业化应用前景 - 已形成文本、语音、视频完整产品链,如海螺AI等产品 [44] - 应用场景覆盖语音助手、声聊唱聊、配音等领域,加速商业化进程 [44] - 接入AI硬件生态,包括儿童玩具、教育学习机、汽车智能座舱等赛道 [44]
速递|两名本科生3个月打造的AI语音模型,挑战谷歌NotebookLM,16亿参数实现自然对话生成
Z Potentials· 2025-04-23 11:49
行业概况 - 合成语音工具市场巨大且持续增长 主要参与者包括ElevenLabs PlayAI Sesame等 [1] - 2023年语音AI技术初创公司共获得3.98亿美元风险投资 [2] 公司技术 - Nari Labs开发的Dia模型具有16亿参数 支持从脚本生成对话 可自定义说话者语气并插入非语言线索 [2] - 模型通过Google TPU Research Cloud计划训练 可在10GB VRAM以上PC运行 提供语音克隆功能 [2][3] - 技术特点包括双向聊天生成能力 语音质量与主流工具相当 克隆功能操作简便 [3] 产品应用 - 模型部署在Hugging Face和GitHub平台 生成内容需依赖样式提示 否则输出随机语音 [3] - 计划扩展多语言支持 未来将构建具有社交属性的合成语音平台 [5] 潜在问题 - 缺乏内容防护机制 存在制作虚假信息/诈骗录音的风险 [4] - 训练数据来源未披露 可能涉及版权内容 样本中检测到类似NPR播客主持人的声纹特征 [5] 商业模式 - 采用开源模式发布技术报告 暂未披露商业化路径 [5] - 团队由非专业背景本科生组成 开发周期仅三个月 [1][2]