Workflow
语音AI
icon
搜索文档
招商证券国际:语音AI驱动商业增长 渗透汽车、快餐及内地市场
智通财经网· 2025-09-24 14:09
语音AI行业增长动力 - 语音输入速度比打字快近3倍 AI和机器学习技术显著提升识别准确度和响应速度 [1] - 语音AI采用速度不断加快 推动智能自主AI实现免提、实时且具上下文感知的交互 [1] 语音电商市场前景 - 语音电商以25-29%年复合增长率快速发展 预计2030年市场规模达1860亿美元 [1] - 增长动力源于智能手机普及和AI能力持续提升 北美及亚太地区采用率尤为强劲 [1] 语音AI应用领域渗透 - 语音AI加速渗透汽车、快餐及内地市场 快餐行业年复合增长率达29% [1] - 快餐行业目标2034年北美市场规模达120亿美元 SoundHound已部署超过1.3万个门店 [1] - 语音AI提高订单精准度、速度和劳动力效率 [1] 内地市场竞争格局 - 内地市场语音电商强劲增长 科大讯飞以44.2%市场份额领先 [1] - 科大讯飞凭借深厚语音技术实力 在百度和苹果竞争下持续发力 [1] - 语音AI广泛应用于汽车、智能家居及金融等领域 [1] 行业参与者结构 - 市场由中美大型科技企业主导 小型专精公司通过垂直领域深耕提供定制化和增值服务 [2] - 小型专精公司包括SoundHound AI、Cerence和科大讯飞 [2] - 行业首推股包括Meta、Google、腾讯控股和阿里巴巴 这些公司参与并受益于语音AI发展 [2]
大行评级 | 招商证券国际:看好语音AI助力商业增长 首选Meta、谷歌、腾讯和阿里
格隆汇· 2025-09-24 11:19
语音AI技术优势 - 输入速度比打字和触屏操作快近3倍 [1] - 实现免提及实时交互功能 [1] - 可应用于汽车、餐饮、旅游及酒店等行业 [1] 市场规模预测 - 2030年市场规模预计达1860亿美元 [1] 市场竞争格局 - 当前及未来市场由中美大型科技企业主导 [1] - 小型专精公司通过垂直领域深耕提供定制化服务 [1] - 代表性小型企业包括SoundHound AI、Cerence和科大讯飞 [1] 互联网行业首推标的 - 首推股包括Meta、谷歌、腾讯和阿里巴巴 [1]
互联网行业:语音AI驱动智能自主AI演进
招商香港· 2025-09-23 20:03
行业投资评级 - 行业评级为"推荐" [4] 核心观点 - 语音AI输入速度比打字和触屏操作快近3倍 能够结合智能自主AI在汽车 餐饮 旅游及酒店等行业实现免提 实时交互 助力商业增长 [1] - 语音电商正以25-29%的年复合增长率快速发展 预计到2030年市场规模将达1,860亿美元 [1] - 当前及未来市场由中美大型科技企业主导 小型专精公司通过垂直领域深耕提供定制化和增值服务 [1] - 语音AI在汽车行业采用率持续增长 快餐行业年复合增长率达29% 目标2034年北美市场规模达120亿美元 [2] - 中国市场语音电商强劲增长 科大讯飞以44.2%市场份额领先 [2] 行业概览 - 语音AI发展历经多个阶段:1950-1960年代早期语音识别系统出现 1970-1980年代HMM算法提升识别能力 1990-2000年代计算能力提升推动进步 2010年代AI/ML推动复杂系统诞生 2022年后ChatGPT增强语音指令理解能力 [13] - 语音明显比打字更快 英语语音输入比手机屏幕触摸输入快约3倍 中文快约2.8倍 [11] - AI/机器学习 自然语言处理和低延迟语音模型的进步提升了对话准确性和响应速度 [11] 市场规模与增长 - 语音电商市场规模预计从2024年约410亿美元增长到2030年超过1,860亿美元 年复合增长率约24-29% [18] - 预计到2034年市场规模将突破7,000亿美元 [18] - 语音电商市场在2021年至2024年间增长超过6倍 交易额从46亿美元增至300亿美元 [19] - 全球市场预计将从2025年的900亿美元以25%的复合年增长率扩张 至2034年达到7,000亿美元 [19] - 美国市场增长率为24% [19] 应用领域 - 零售与电商:语音AI购物助手通过免手操作实现商品搜索 价格比对及无缝结账 [27] - 医疗健康:语音AI简化医疗流程 负责预约安排 用药提醒及健康监测 [27] - 教育领域:语音AI提供个性化学习 虚拟导师可调整课程 实时反馈 [27] - 交通与物流:语音AI通过实时路线规划优化物流效率 [27] - 地方政府:语音AI提升公共服务水平 实现自动咨询 预约和信息获取 [27] 区域市场分析 - 北美在语音电商领域处于领先地位 占据37%的市场份额 [42] - 亚太地区以16.2%的年复合增长率引领全球增长 [43] - 欧洲高端汽车制造商倾向于采用先进语音AI解决方案如Cerence和SoundHound [35] - 亚太和印度市场更偏好性价比高的基于安卓平台的语音系统如Alexa Auto和CarPlay [35] 竞争格局 - 大型科技公司包括Google Amazon Microsoft 拥有雄厚资金和广泛生态系统 [37] - 汽车专业公司Cerence主导欧洲汽车市场 SoundHound在美国市场更强 [37] - 垂直细分领域玩家在快餐等行业提供更好的行业支持和集成 [37] - 新入局者专注于特定技术能力 但面临较高准入门槛 [37] 重点公司分析 - SoundHound AI:25年二季度营收4,300万美元 同增217% 其Polaris平台每月处理超过10亿次查询 [3] - Cerence:25年二季度营收1.08亿美元 同增15% 在汽车语音AI领域占据52%的市场份额 技术已应用于超过5亿辆车辆 [3] - 科大讯飞:25年上半年营收109.1亿元人民币 同增17% 主导中国汽车语音AI市场 覆盖80余款车型 100多个海外项目 [3] - 亚马逊Alexa在车载语音AI和快餐连锁市场中占据约30-35%的市场份额 [39] - Android Automotive在车载语音AI市场的份额约为15-18% [39] 技术发展 - SoundHound的Voice to Meaning技术通过AI直接将语音转换为用户意图 跳过文字转录过程 实现更快速响应 [59] - 传统Voice to Text to Meaning方法先将语音转录为文字 再分析文字以理解含义 带来更高延迟 [60] - 汽车行业正迅速向"软件定义汽车"转型 要求语音和AI技术能够无缝集成至新一代车载计算架构 [35] 商业化模式 - SoundHound AI和Cerence通过采用按实际使用情况计费和订阅定价模式优化语音AI商业化 [50] - SoundHound收入来自餐厅和消费设备中的每笔交易或每次交互的费用 [50] - Cerence转向订阅模式 提供持续的软件更新和基于云的AI服务 [50] 中国市场特色 - 中国对话式AI市场主要由互联网巨头与AI语音技术专精企业之间的竞争所驱动 [28] - 科技/互联网巨头如百度 腾讯及阿里巴巴依托庞大用户群体和数据积累提供全栈式AI平台 [31] - AI语音技术专精企业如科大讯飞 云知声利用核心语音技术优势聚焦特定行业 [31] - 科大讯飞以44.2%的市场份额在中国语音电商市场中占据主导地位 [32]
速递|AI语音革新市场调研:Keplar获凯鹏华盈领投340万美元种子轮
Z Potentials· 2025-09-22 11:54
市场调研行业痛点 - 财富500强企业传统上依赖市场调研公司获取客户满意度洞察,这类服务价格昂贵且通常需要数周时间完成 [2] Keplar公司技术方案 - 运用语音AI技术进行客户访谈,能以远低于传统调研公司的成本提供更快速的分析报告 [3] - 平台可在几分钟内设立研究项目,将产品问题转化为访谈主持指南,语音助手通过深入提问了解客户喜好与不满 [4] - 若接入客户CRM系统,AI语音研究员直接联系现有客户,结果被整理成与传统人工研究机构类似的报告和PPT演示文稿 [5] - 语音AI逼真度使参与者有时忘记正在与AI对话,回放录音可听到参与者直呼AI主持人名字(艾莉、安德鲁或瑞安) [5] 融资与竞争格局 - 获得340万美元种子轮融资,由凯鹏华盈领投,SV Angel、Common Metal和South Park Commons跟投 [3] - 竞争对手包括Outset(6月获8VC领投1700万美元A轮融资)和Listen Labs(4月获红杉资本2700万美元投资) [5] 创始背景与客户案例 - 由前谷歌语音AI工程师Dhruv Guliani与机器学习工程师William Wen于2023年共同创立,参与South Park Commons孵化计划 [3] - 客户包括Clorox和Intercom等企业 [5]
SoundHound(SOUN.US)技术平台与订单收入比亮眼 Oppenheimer首予“与大盘持平”评级
智通财经网· 2025-09-15 11:45
公司概况 - 专注于对话式AI技术的软件公司 通过为B端客户提供定制化语音AI服务构建技术壁垒与商业生态 [1][2] - 凭借强大的技术平台与清晰的战略定位 有望成长为具备持久增长潜力的复合型科技企业 [1] 市场地位 - 在语音AI市场具有核心竞争力 体现为技术优势 价值主张与运营效率三方面 [1] - 对话式AI平台在语音转语义处理 非结构化数据分析和技术愿景引领性上获得众多客户认可 被视为行业领导者 [1] 财务表现 - 积压订单与可交付收入比率表现亮眼 验证了商业化落地能力与稳健运营水平 [1] - 当前估值模型反映乐观预期 针对2026年企业价值/收入预测对应26倍2026年预期企业价值/收入比 [1] 行业竞争 - 语音AI赛道竞争加剧 新进入者可能对公司构成威胁 [1] 业务拓展 - 公司在现有垂直领域渗透及新市场拓展的速度可能难以支撑当前估值模型 [1]
赛道Hyper | 阿里Fun-ASR:语音AI新阶段演进方向
华尔街见闻· 2025-09-01 10:49
技术特点 - 新一代端到端语音识别大模型Fun-ASR具备更强的上下文感知和高精度转写能力 能听懂家装 畜牧等十大行业专业术语 并支持企业专属模型定制训练 [1] - 模型在转写时能结合前后文信息 避免多轮对话中出现语义漂移 例如在会议纪要场景中持续跟踪专有名词或特定语境 [6] - 在口音 噪声 跨领域专业词汇场景下提升鲁棒性 使系统在面对不确定性 干扰或异常情况时仍能保持稳定运行和可靠输出 [6] - 通过统一网络结构直接将语音映射为文本 降低系统复杂度 并为多轮语境理解奠定基础 [4] 应用场景 - 目前已进入会议字幕 同传 智能纪要 语音助手等场景 [8] - 在企业会议中转写不仅能记笔记 而是能形成结构化文档直接进入知识管理系统 在客服场景中识别结果可实时联动知识库帮助生成回答 [9] - 在教育和医疗领域 上下文理解力让转写结果更符合专业表达 减少误判 [9] - 语音识别正在向语音驱动的工作流过渡 成为数字生产力的一部分 而不仅是工具层的功能 [9] 战略定位 - 通过阿里云百炼平台服务B端客户 优先强化企业级生态 再逐步扩展到其他产品 [10][11] - 嵌入百炼平台意味着不仅是一个模型 更是平台化服务 定位为模型即基础设施 使语音识别成为企业云计算中的常备模块 [13] - 以云+企业服务为轴心 推动阿里云形成AI工具集 加速企业对阿里云平台的依赖 [14][15] - 在中文场景下的定制化与上下文感知可能成为其核心优势 与国际模型形成差异化竞争 [11] 行业趋势 - 语音AI交互方式正从听得懂迈向理解语境 反映语音AI整体格局的一个潜在转折点 [2] - 语音识别商业价值不再局限于单点应用 正逐步成为数字基础设施 类似OCR一旦准确率足够高就能无形融入各种系统 [12] - 未来语音AI可能与多模态模型融合 真正做到听 看 说 懂一体化 例如会议中同时识别语音与PPT内容生成更精准纪要 [13] - 语音识别逐渐成为人类不再意识到却无处不在的存在 未来AI交互很可能不是点击或输入而是自然对话 [20][21]
OpenAI发布端对端语音模型GPT-Realtime,助力开发者构建语音智能体
36氪· 2025-08-31 00:34
产品发布与定价 - 公司发布迄今最先进的端对端语音模型GPT-Realtime并宣布Realtime API全面进入生产环境 [1] - 新模型定价较上一代产品GPT-4o-Realtime-Preview降低20% 输入tokens价格从每百万40美元降至32美元 输出tokens从每百万80美元降至64美元 [1] - 新增对话上下文管理功能 允许开发者灵活设置token限制并一次性截断多轮对话以降低长会话成本 [2] 技术性能提升 - 新模型在遵循复杂指令 精确调用工具及生成更自然富有表现力的语音方面显著进步 [3] - 支持在一句话中无缝切换多种语言 并能识别非语言信号如笑声 [3][5] - 在Big Bench Audio推理测试中准确率达82.8% 显著高于GPT-4o-Realtime-Preview在2024年12月的65.6%和2024年6月的81.5% [5] - 在MultiChallenge Audio测试中指令执行准确率达30.5% 优于上一代产品的20.6%(2024年12月)和26.5%(2024年6月) [7] - 在ComplexFuncBench Audio测试中函数调用准确率达66.5% 支持异步调用 优于上一代产品的49.7%(2024年12月)和58.9%(2024年6月) [10] - 新增支持图像输入功能 可识别照片或截图内容 [10] - 新增两种API专用语音Cedar和Marin 展现最显著的自然语音改进 [10] API功能升级 - Realtime API通过单一模型直接处理音频 降低延迟并保留语音细节 [11] - 新增支持远程模型上下文协议(MCP)服务器 简化AI模型与外部数据的连接 [12] - 新增支持图像输入 启用多模态对话能力 [12] - 新增会话发起协议(SIP)支持 允许与公共电话网络及企业电话端点集成 [12] - 早期采用者Zillow证实新API具备更强推理能力和更自然语音 能处理复杂多步骤请求 [12] 行业竞争格局 - 语音AI市场竞争白热化 Anthropic于2024年5月为Claude AI推出语音模式 Meta于2024年7月以4500万美元收购语音初创公司PlayAI [13] - 开源社区力量显著 法国初创公司Mistral发布Voxtral模型 承诺服务价格低于同类API一半 小米发布自研声音理解大模型MiDashengLM-7B [13] - 传统科技巨头持续发力 亚马逊于2024年4月推出实时表现力模型Nova Sonic并集成至Alexa+助手 [14] - 专业初创公司聚焦细分创新 Stability AI研发设备端语音处理技术 Sesame AI通过添加自然停顿等特征打造逼真AI助手 [14]
美股异动 SoundHound AI(SOUN.US)大涨超16% 与Acrelec达成语音AI平台合作
金融界· 2025-08-11 23:59
股价表现 - SoundHound AI(SOUN US)股价周一上涨超16%至15 79美元 创半年新高 [1] 业务合作 - 公司与Acrelec达成合作 将Dynamic Drive-Thru语音AI平台与Acrelec数字系统整合 [1] - 合作方案计划部署至全球超过2 5万家餐厅的免下车服务点 [1] - 合作宣布时间为2025年8月11日 [1] 财务表现 - 第二季度收入同比增长217%至4268万美元 [1] - 公司上调全年收入展望至1 6亿-1 78亿美元 [1]
SoundHound AI(SOUN.US)大涨超16% 与Acrelec达成语音AI平台合作
智通财经· 2025-08-11 23:16
股价表现 - SoundHound AI股价周一大幅上涨超16%至15 79美元 创半年新高 [1] 战略合作 - 公司与Acrelec达成合作 将Dynamic Drive-Thru语音AI平台整合至Acrelec数字系统 [1] - 合作方案计划部署至全球超过2 5万家餐厅免下车服务点 [1] 财务表现 - 第二季度收入同比增长217%至4268万美元 [1] - 公司上调全年收入展望至1 6亿-1 78亿美元区间 [1]