AI语音 - 财报，业绩电话会，研报，新闻 - Reportify

AI语音

搜索文档

华为参股入局，AI语音有望成为“入口级别”存在

选股宝· 2025-11-11 07:18

行业动态与市场前景 - 2025年上半年AI语音赛道正密集获得融资且多为大额并投向早期团队[1] - 全球人工智能语音市场规模预计将在2025年达到100.5亿美元到2033年将显著扩大到194.8亿美元[1] - 全球人工智能在网络安全市场规模将从2025年的341.0亿美元增长到2032年的2346.4亿美元预测期内复合年增长率为31.70%[2] 技术发展趋势 - 语音对话正从一个App中的功能模块迅速进化为AI时代入口级别的存在[1] - 行业正经历从语音播报到情感交互的关键转型期语义理解与情感化演绎能力成为推动AI语音商业化落地与体验升级的核心驱动力[1] - AI技术正加速语音深度伪造向实时演进攻击者可在通话中即时模仿他人声音实现近乎100%的欺骗成功率[2] 公司融资与股东变更 - 深圳市安菲翁科技有限公司新增华为旗下深圳哈勃科技投资合伙企业及深圳市高新投鼎胜创新私募股权投资基金合伙企业为股东注册资本由100万人民币增至112.5万人民币[1] - 该公司是一家专注于语音AI大模型领域的高科技企业核心技术专长在于语音深度伪造鉴伪[1] 公司产品与业务进展 - 神州泰岳子公司鼎富智能2025年6月18日推出avavox定位为语音智能体适用于通知回访调查营销唤醒等需电话沟通的场景[3] - 该产品用户可30秒生成机器人只需通过语音描述需求系统自动生成对话逻辑与话术流程无需代码配置具备拟人音色及主动思考能力[3] - 其商业模式为通话时长以10秒为单位计费未接通不收费打破传统包月制或高预付模式[3] - 洲明科技AI语音智能潮玩及全息佛龛正在规划中[4]

语音深度伪造鉴伪

Artificial Intelligence

avavox（AI Voice Agent）

AI语音智能潮玩及全息佛龛

语音深度伪造鉴伪

Artificial Intelligence

avavox（AI Voice Agent）

AI语音智能潮玩及全息佛龛

用 AI 自动化客户研究全流程，连续拿了 3 轮近 1 亿美金

投资实习所· 2025-11-03 13:40

AI语音交互界面的发展 - AI语音正在改变多个行业并可能成为未来重要的新型交互界面[1] - 通过语音AI和硬件载体打造新交互界面是某些公司的长期愿景[4] 模型技术进展 - Cartesia公司完成1亿美元融资并推出实时对话模型Sonic-3[1] - Sonic-3模型延迟为90ms，端到端延迟190ms，支持42种语言[2] - 该模型基于状态空间模型构建，相比Transformer能更自然地记住对话主题和氛围[3] - 目前有数千家企业每月使用Sonic进行数百万次对话，包括ServiceNow、Cresta和Decagon等[3] 应用场景拓展 - AI客服和AI笔记应用快速渗透市场，显示强劲需求[3] - Cluely转型为AI笔记应用，在通话过程中提供实时会议智能而非会后总结[4] - 通过与AI聊天进行招聘的新方式已扩展到其他行业，如客户研究[5][6] - 某客户研究AI产品通过聊天对话让企业在几小时内完成数百至上千次深度用户访谈[6][7] - 该产品还将传统需要大量人工处理的工作自动化[7] 资本市场动态 - Cartesia获得来自KP、Index、Lightspeed和英伟达等机构的1亿美元融资[1] - Genspark公司估值达10亿美元，年经常性收入超过5000万美元[9] - Cluely公司获得a16z的1500万美元融资[3] - 某AI招聘公司种子轮融资2000万美元[9] - 某客户研究AI产品连续完成3轮融资，总额近1亿美元[6]

状态空间模型 (SSM)

Artificial Intelligence

状态空间模型 (SSM)

Artificial Intelligence

2 亿美元 ARR，AI 语音赛道最会赚钱的公司，ElevenLabs 如何做到快速增长？

Founder Park· 2025-09-16 21:22

公司概况与市场地位 - AI音频领域独角兽，估值达66亿美元[2] - 欧洲发展速度最快的AI创企，在科技巨头围攻下成功突围[3] - 营收增长迅猛：首个1亿美元ARR耗时20个月，第二个1亿美元ARR仅用10个月[2]，目前营收已突破2亿美元[33]，从1亿美元增长到2亿美元用时约10个月[34] 创业历程与产品市场契合 - 创业契机源于对波兰落后电影配音体验的洞察，结合此前音频项目经验[4][5] - 早期采用双管齐下策略：联合创始人负责技术研发，CEO负责市场需求验证[7] - 通过给YouTuber发送数千封个性化邮件进行市场测试，初期回复率约15%[7] - 关键转折点是将方向从配音转向旁白和语音解说，通过三件事找到PMF信号：发布"能模拟笑声的AI"博客后等待名单新增上千人、有声书作者成功使用产品并推荐朋友、测试版公开后获得创作者和旁白演员积极反馈[9][10] 技术战略与研发优势 - 坚持自研模型路线，因当时市面现有模型效果均处于"恐怖谷"状态[11] - 技术发展从专注单一语音模态转向多模态融合，最新Eleven v3模型已结合推理能力与语音技术[12] - 自建数据中心用于模型训练，计算持续训练需求后认为自建与云服务成本基本打平，且能获得更快实验速度[26][27][28] - 目前技术领先竞争对手6到12个月，具体优势取决于聚焦的细分领域[24] 业务模式与增长动力 - 企业客户成为业务核心，重点打造对话式Agents平台[37] - 最大单笔合同金额约200万美元，客户来自呼叫中心、客户支持、个人助理领域[38] - 重要合作伙伴包括思科、Twilio、Epic Games等，同时保持庞大自助用户群体[38] - 语音Agents业务被视为未来数十亿美元营收潜力的增长点[46] 融资策略与资本运作 - 种子轮融资异常艰难，被30到50位投资人拒绝，主要质疑研发难度、市场规模和产品护城河[64][65] - 融资宣布与重大产品动态、用户里程碑或核心招聘进展绑定，不单纯为宣布融资而宣布[70] - 每轮融资核心逻辑是"提前布局未来业务"，如拓展模型能力、推进国际化、深耕Agents平台[44] - 几乎每轮融资都会推出员工股票二次出售和要约收购，为员工提供流动性[87] 组织管理与人才战略 - 坚持小团队模式，目前约250人拆分为20个5-10人小团队，按产品领域划分[50][51] - 取消头衔制度以优化影响力和决策效率，小团队核心是快速执行[52][53] - 创始人仍亲自参与每个候选人面试，年底计划将团队规模扩展至400人[56][59] - 注重本土人才培养，通过与美国投资人网络中的顾问配对指导团队成长[19] 竞争壁垒与核心优势 - 面对OpenAI等巨头的三点优势：顶尖研发团队、快速执行力、对语音AI应用场景的深度聚焦[16][18] - 全球顶尖语音技术研发人员仅50到100人，公司拥有5到10名顶尖人才[16] - 产品层面优势体现在创意领域语音产品的额外优化步骤和完整平台构建能力[17] - 策略是研发+产品+生态三者结合，研发提供的是未来1到3年对竞争对手的优势[23] 市场拓展与全球化布局 - 定位为全球化公司，目标在美国、欧洲和亚洲市场获胜[21] - 欧洲人才质量非常高，关键是要知道如何找到他们，越来越多欧洲公司展现全球化野心[20][21] - 反驳"欧洲人工作不拼"的片面说法，团队中有很多使命感驱动的人才[22] - 在国际化扩张中采取在巴西、日本、印度、墨西哥等地建立小型分支机构的模式[62]

多模态融合

语音Agents平台

多模态融合

语音Agents平台

红杉美国：未来一年，这五个AI赛道重点关注

虎嗅· 2025-08-31 11:34

核心观点 - AI革命被视为堪比工业革命的变革蕴含10万亿美元机遇 [2] - 未来12-18个月将重点关注五大投资主题：持久化记忆、通信协议、AI语音、AI安全和开源AI [3] - 知识工作者算力消耗预计增长10-10000倍为AI专业化应用创造巨大机会 [3][32][33] 工业革命类比与认知革命 - 工业革命历时211年从蒸汽机发明(1769年)到流水线出现(1913年) 核心是通用技术的专业化改造 [4][7] - 1999年NVIDIA GeForce 256 GPU被视为认知革命的"蒸汽机" 2016年出现首个AI工厂 [5] - 未来应用程序将由践行"专业化"使命的创业公司构建 [8] 服务业AI改造机遇 - 美国服务业市场价值10万亿美元目前仅200亿美元被AI自动化存在10¹³倍级机会 [12] - 红杉内部数据显示注册护士领域年工资总额2840亿美元软件开发领域2240亿美元法律领域1250亿美元 [13][14] - 已投资案例：Open Evidence和Freed(护理)、Factory和Reflection(开发)、Harvey/Crosby/Finch(法律) [15] 当前五大投资趋势 - 工作范式转变：从确定性转向百倍杠杆效应 AI Agent可实现千人级客户管理 [20][21][22] - 真实世界验证成为新标准 Expo公司在HackerOne平台证明为世界第一AI黑客 [25] - 强化学习技术进入产业应用核心 Reflection公司用于训练开源编码模型 [27] - AI进入物理世界 Nominal公司用AI加速硬件制造和质量保证 [29] - 算力成为新生产力每位知识工作者算力消耗预计增长10-10000倍 [32][33] 五大重点投资方向 - 持久记忆：需解决长期记忆和AI身份持久性问题向量数据库/RAG技术尚未彻底解决 [36][37] - 通信协议：需要标准化协议实现AI Agent间无缝协作类比TCP/IP对互联网的意义 [39][40] - AI语音：保真度和延迟已达实用水平可应用于物流协调、金融交易等企业场景 [42] - AI安全：覆盖开发层到消费者的全链条可构建千人级AI安全Agent防护体系 [44][45] - 开源AI：已具备与闭源模型竞争实力对构建自由开放的AI未来至关重要 [47][48] 市场格局展望 - 标普500指数中英伟达市值超4万亿美元但服务业存在未上市巨头(如科克兰律所、贝克·蒂莉会计所) [17] - 认知革命将催生以AI为核心的服务业上市公司重塑市场格局 [18]

无缝通信协议

无缝通信协议

红杉美国：10万亿美元AI机遇下的五大投资主题 | Jinqiu Select

锦秋集· 2025-08-29 17:23

核心观点 - AI革命是规模超过工业革命的认知革命将创造10万亿美元服务业转型机遇 [1][4] - AI发展呈现加速态势从1999年首块GPU到2016年首个AI工厂仅用17年远快于工业革命数百年进程 [1][6][10] - 专业化是核心趋势初创公司将在AI服务领域创造新一代巨头企业 [1][13] 工业革命类比分析 - 工业革命从1702年蒸汽机到1769年首座工厂耗时67年到1913年流水线再耗144年 [6] - AI革命演进速度显著加快:1999年GeForce 256 GPU相当于蒸汽机 2016年首个AI工厂相当于首座工厂 [6][10] - 专业化是复杂系统发展的必然要求通用技术需与专业化组件结合 [7] 市场机遇规模 - 美国服务市场总规模达10万亿美元目前仅200亿美元被AI自动化 [16] - 各职业领域TAM巨大:注册护士2840亿美元软件开发2240亿美元律师1250亿美元会计1250亿美元 [17] - 类比云转型:SaaS从60亿美元增长至6500亿美元 AI将复制此路径并扩大整体市场 [14][16] 当前投资趋势 - 工作模式转向高杠杆低确定性销售代理可实现1000%杠杆率 [22][24] - 验证标准从学术基准转向真实世界表现 Expo通过HackerOne实战证明AI黑客能力 [25][26][27] - 强化学习进入主流应用 Reflection使用强化学习训练顶级编程模型 [28][30] - 物理世界应用落地 Nominal用AI加速硬件制造和质量保证 [31][33] - 算力成为新生产函数知识工作者算力消耗将增长10-10000倍 [37] 重点投资主题 - 持久化记忆:需解决长期记忆和AI身份持续性尚无成熟解决方案 [39][40] - 通信协议:MCP协议类似TCP/IP起点将催生AI间无缝通信应用 [42] - AI语音:保真度和延迟已达实用水平物流和金融等领域存在企业级应用机会 [45][46] - AI安全:涵盖开发层到消费者的全链条保护可部署海量AI安全代理 [49] - 开源AI:处于关键时刻需保持与最先进基础模型的竞争能力 [52] 企业布局 - 红杉已在关键领域投资:Open Evidence和Freed(医疗) Factory和Reflection(开发) Harvey和Crosby(法律) [17] - 标普500市值显示AI企业机会英伟达市值超4万亿美元服务领域将出现新巨头 [20]

持久化记忆

持久化记忆

被低估的AI语音，AI商业化的下一张船票已来

36氪· 2025-08-11 19:41

AI语音技术发展现状 - AI语音技术正从图形界面(GUI)向图形与语言界面(LUI)融合的混合模式演进，从附属功能升级为核心交互方式 [2] - 技术迭代速度极快，MiniMax在4月推出Speech-02后，仅3个月就发布升级版Speech 2 5，实现多语种表现力、音色复刻精度和40种语言覆盖的跃升 [3] - Speech-02曾全球双榜单夺冠，开启"语音个性化时代"，其HD版本以1163分ELO值超越OpenAI TTS-1 HD(1150分) [4][5] Speech 2 5技术突破 - 多语种表现力：中文保持全球最强，英文等语言相似度提升，能精准模仿海盗船长、精灵等角色语气，实现专业配音员级别的情绪表达 [6][7][8] - 音色复刻：新增"口音强化"功能，可还原不同地区口音、年龄层声线及高压情绪下的气息变化 [9][10][11] - 语种覆盖：支持语言从原有基础上新增保加利亚语、丹麦语等小语种，总数达40种，实现母语级听感 [12] 商业化落地场景 - 教育领域：高途教育采用MiniMax语音打造"AI阿祖"口语陪练，课程销售额破千万 [24] - 内容生产：喜马拉雅、网易用于有声内容批量生产，起点读书接入模型推出"说书先生"等AI朗读者 [14][22] - 硬件交互：Rokid AR眼镜全量接入实现实时多语种翻译，智能家居语音AI市场规模达5146 2亿美元 [18][21] 行业变革方向 - 交互革命：语音输入首次具备替代键盘潜力，通过自然交互和拟真表达重塑智能硬件入口 [16][17][18] - 内容生产范式：AI语音将声音转化为可复制资产，如Syllaby V2 0实现品牌音色统一克隆，降低获客成本 [22][26] - 虚拟IP商业化：Speech 2 5支持打造可复用虚拟代言人，突破真人IP的档期与地域限制，形成品牌资产池 [26][27] 市场前景 - 全球语音克隆市场规模2022年14 5亿美元，预计2030年CAGR达26 1%，亚洲增速28 2% [28] - 有声读物市场将从50亿美元增长至350亿美元，技术渗透推动教育、营销等行业边际成本下降 [28][22] - 行业竞争焦点转向高价值入口占领，MiniMax凭借技术领先性和商业执行力建立规模壁垒 [30]

Speech-02系列语音模型

Speech-02系列语音模型

AI语音赛道MiniMax再爆发，一场技术与市场的双重角逐

每日经济新闻· 2025-08-08 16:52

行业融资与巨头动态 - 2025年上半年AI语音赛道至少有4家初创公司获得超过3亿美元融资 [1] - Wispr Flow完成3000万美元A轮融资 Cartesia完成6400万美元融资 Hume AI完成5000万美元融资 ElevenLabs完成1.8亿美元C轮融资 [1] - Amazon推出Nova Sonic语音模型 OpenAI发布GPT-4o Transcribe/GPT-4o MiniTranscribe/GPT-4o MiniTTS三款语音模型 Google在Veo3整合语音模型 Siri或被ChatGPT/Claude接管 [1] MiniMax技术突破 - 8月7日发布新一代语音生成模型Speech 2.5 相比5月Speech 02实现三大突破：多语种表现力更强音色复刻更精准覆盖40个语种 [2][6] - 技术获全球市场认可国内高途教育/喜马拉雅/网易等头部平台接入海外Vapi/Pipecat/Hedra/Icon等AI应用采用 [7] - 在性能大幅提升同时保持高性价比降低企业使用顶尖AI语音技术门槛 [7] 商业化落地案例 - 与起点读书合作打造AI朗读角色"说书先生"/"狐狸小姐" 在自然度/还原度/保真度上超越传统语音方案 [3] - 用户对个性化音色产生强黏性新音色获认可后难以替换起点读书正使用语音克隆能力满足用户个人IP创作需求 [4] - 与高途教育联合推出"AI阿祖"口语陪练（吴彦祖音色蓝本）累计销售额超千万 [6] - 与广告公司Monks战略合作将数日的提案构思压缩至分秒级实现创意光速孵化 [6] 技术应用拓展 - 与Haivivi联合开发AI语音挂件玩具"Bubble Pal" 可附着毛绒玩具实现情绪化交互（如哭着说/开心宣布） [8] - AI语音从单向内容输出进阶为具备共情能力的智能伙伴支持情感理解/长期记忆/个性化衍生 [8] - 在虚拟人/元宇宙等"声音驱动视觉"领域助力独立创作者低成本制作专业级音频内容 [7] 行业发展趋势 - AI语音从解决"从无到有"转向塑造角色/传递情感的表达媒介 [3][4] - 行业竞争焦点从技术突破转向商业化场景落地能力 [2] - 情感智能成为新方向具备情绪表达和情感需求的AI将极具竞争力 [8]

Artificial Intelligence

GPT - 4o Transcribe

Artificial Intelligence

GPT - 4o Transcribe

AI语音从“输出”到“输入”，资本在用千万美元押注什么？

36氪· 2025-07-30 11:09

行业融资动态 - 语音输入创企Willow Voice完成420万美元天使轮融资，由YC领投 [1] - 语音输入创企Wispr Flow完成3000万美元A轮融资 [1] - AI语音赛道头部公司ElevenLabs在1月完成2.5亿美元C轮融资，估值超30亿美元 [1] - 资本关注点从语音合成（输出）转向语音识别（输入）领域 [1] 技术产品定位 - Willow Voice和Wispr Flow专注ASR技术（自动语音识别），产品类似"语音输入法" [2] - 与传统语音转文字的区别在于增加"文字处理"步骤，追求"零编辑信息" [5] - 文字处理分三个层面：格式化文字输出、上下文理解、语境识别 [5] - Flow和Willow目前能做到第二层（上下文理解），第三层（语境识别）尚未实现 [5] 产品性能测试 - 非格式化文本场景下主流产品错词率低于10%，与人类水平相当 [4] - 格式化文本场景错词率平均增加10% [4] - 在To do List场景测试中，Flow和Willow能正确分段，Flow格式处理更优 [13] - 专业术语场景测试显示三款产品均存在错误，Flow表现略好但仍不理想 [16] - 邮件回复场景中Flow将"到时候"改为"届时"，但整体仍偏口语化 [19] 用户数据与市场反馈 - Wispr Flow月环比用户增长超50%，6个月活跃用户留存率80% [20] - Wispr Flow付费率19%，年收入达380万美元（2024.7-2025.7） [20] - 非正式输入场景下用户满意度较高，Reddit和Product Hunt评价积极 [22] - 目标用户为硅谷VC/创业者/高管群体，后扩展至学生、开发者等专业人群 [9][11] 行业前景 - 语音输入通过减少人机交互摩擦实现提效，被验证为可行方案 [24] - 未来若实现用户完全信任，可能颠覆键盘成为新的人机交互范式 [24] - VC投资逻辑基于现实提效潜力+未来范式颠覆可能性 [24]

自动语音识别（ASR）技术

零编辑信息

Artificial Intelligence

自动语音识别（ASR）技术

零编辑信息

Artificial Intelligence

李想：理想i8发布会大概率要「致敬小米」！特别感谢雷总的「定心丸」；罗马仕中层：五个老板全跑马来西亚了；传阿里副总裁叶军将离职

雷峰网· 2025-07-14 08:35

蔚来汽车动态 - 蔚来副总裁沈斐否认裁员传闻，称是"人员队伍优化调整"，李斌表示对离职同事感到不舍[4] - 乐道L90预售价格公布：整车购买27.99万元起，电池租用方式19.39万元起[5] - 安徽国资两次加码蔚来，销售服务公司注册资本激增至230亿元，科技公司注册资本增至260亿元[13] - 蔚来二季度交付量超7.2万辆，环比增长71.2%，自研5纳米智驾芯片已量产[13] - 蔚来港股7月10日大涨7.79%至30港元，创三个月新高[13] 自动驾驶技术进展 - 华为发布L3/L4落地时间表：2025年启动高速L3试点商用，2026年推进高速L3规模化商用，2027年实现城区L4大规模商用[15] - 华为ADS 4.0智能驾驶系统将于2025年三季度搭载旗舰车型，整合激光雷达、高精地图等多种传感器[15] - 一汽奥迪高管李凤刚强调车规级芯片重要性，指出消费级芯片缺陷率允许500PPM，而车规级要求低于1PPM[19][20] 互联网与科技公司动态 - 阿里副总裁、前钉钉CEO叶军被传将离职，官方暂无回应[8] - 前百川智能联合创始人焦可创业AI语音项目"来福"，定位为AI私人电台[16][17] - 京东以百万年薪招聘短剧运营岗位，核心岗位年薪达90万-140万元[14] - 小米王腾拍摄短剧即将上线，剧情或与Redmi双K魔王相关[23] - 英特尔在俄勒冈州裁员529人，其中工程师占比57%，涉及Diamond Rapids项目开发人员[34] 新能源汽车行业 - 理想汽车李想透露i8发布会将"致敬小米"，特别感谢雷军支持[8][9] - 小鹏汽车副总裁郑叶青表示公司有60-70岁员工，提供在职读书奖学金和生育奖金[27] - 何小鹏回应60天账期承诺：已制定调整步骤并开始推动[31] - 大众CEO奥博穆称赞比亚迪是可敬的对手，认为竞争推动行业进步[32] 国际科技动态 - OpenAI推迟发布首个开源AI模型，需更多时间进行安全测试[36] - 希音因发货慢遭加州起诉，支付70万美元达成和解[37] - 苹果计划2026年初发布iPhone 17e、新款MacBook Pro和iPad[38] - OpenAI收购Windsurf计划告吹，后者部分团队加入谷歌DeepMind[40] 其他行业动态 - 罗马仕五名核心老板失联，公司停工停产，召回事件直接损失超4000万元[12] - 影石创新初裁胜诉美国337调查，GoPro六项指控均未成立[29] - 外卖平台补贴战持续，美团周末订单量达1.5亿，部分骑手日收入增长111%[22][27] - 阿维塔总裁陈卓称小米营销方式正在重塑汽车行业规则，传统CMO可能失业[26]

太逼真！豆包·播客模型来了：一句话生成「苏超联赛」播客，很懂13太保的梗

量子位· 2025-06-09 13:24AI Processing

豆包·播客模型

豆包·实时语音模型

豆包·声音克隆模型

豆包·播客模型

豆包·实时语音模型

豆包·声音克隆模型