Eleven v3
搜索文档
硅谷热议:最快语音转文字模型
量子位· 2025-11-12 16:01
产品发布与性能突破 - AI语音独角兽公司ElevenLabs发布了Scribe v2 Realtime实时语音转文本模型,被网友评价为“Next-Level” [3] - 该模型实现了150毫秒的超低延迟,其速度之快相当于人类眨眼一次的平均时长(100-400毫秒) [4][5] - 模型在FLEURS基准测试中对前30种常用语言的准确率达到93.5%,表现突出 [4][7] - 模型支持90多种语言,覆盖从主流到小众的语种,并支持PCM(8-48kHz)、μ-law编码等多种音频格式 [4][10] - 产品具备语音活动检测和手动提交控制功能,便于实现定制化的音频流处理和更高精度的微调 [10] - 即使在嘈杂环境、方言或包含专业术语的对话中,模型也能精准抓取关键词,甚至能辨别笑声类型 [9] - 实际测试显示,该模型对中文某些生活化表达(如“五月单五”)的识别尚不完美,但整体准确率较高 [12] 行业技术演进与痛点 - 实时语音转文本赛道早期以传统统计模型为主,存在识别准确率低、背景噪音下错误率常超30%、延迟普遍在1秒以上的痛点 [13] - 深度学习技术应用后,模型准确率有所提升,但多语言支持能力薄弱,主流模型仅覆盖20-30种语言,对小众语言或复杂口音适配性差 [13] - 行业长期存在“速度与精度不可兼得”的困境,直至Transformer架构在语音领域应用后才逐步缓解 [14] - Scribe v2 Realtime实现了毫秒级延迟与90%以上准确率的突破,成为该赛道新的技术天花板 [15][25] 公司背景与商业成就 - ElevenLabs成立于2022年,是一家聚焦AI语音技术的科技企业,创始团队包括前谷歌机器学习工程师与前Palantir策略师 [18][19] - 公司成立后商业进展迅速,仅用20个月营收突破1亿美元,随后10个月内进一步增长至2亿美元 [21] - 公司在2025年1月完成1.8亿美元C轮融资后,估值达到33亿美元 [22] - 公司创立之初即坚定押注语音方向,目前拥有全球Top 100的AI语音方向研究员 [23] - 公司采用灵活的组织架构,将250人团队视为20个5-10人的小团队,内部不设头衔,鼓励任何人成为关键决策者 [23] - 公司此前推出的Eleven v3文本转语音模型因支持70多种语言及自然生动的表现力已获好评 [24]
2 亿美元 ARR,AI 语音赛道最会赚钱的公司,ElevenLabs 如何做到快速增长?
Founder Park· 2025-09-16 21:22
公司概况与市场地位 - AI音频领域独角兽,估值达66亿美元[2] - 欧洲发展速度最快的AI创企,在科技巨头围攻下成功突围[3] - 营收增长迅猛:首个1亿美元ARR耗时20个月,第二个1亿美元ARR仅用10个月[2],目前营收已突破2亿美元[33],从1亿美元增长到2亿美元用时约10个月[34] 创业历程与产品市场契合 - 创业契机源于对波兰落后电影配音体验的洞察,结合此前音频项目经验[4][5] - 早期采用双管齐下策略:联合创始人负责技术研发,CEO负责市场需求验证[7] - 通过给YouTuber发送数千封个性化邮件进行市场测试,初期回复率约15%[7] - 关键转折点是将方向从配音转向旁白和语音解说,通过三件事找到PMF信号:发布"能模拟笑声的AI"博客后等待名单新增上千人、有声书作者成功使用产品并推荐朋友、测试版公开后获得创作者和旁白演员积极反馈[9][10] 技术战略与研发优势 - 坚持自研模型路线,因当时市面现有模型效果均处于"恐怖谷"状态[11] - 技术发展从专注单一语音模态转向多模态融合,最新Eleven v3模型已结合推理能力与语音技术[12] - 自建数据中心用于模型训练,计算持续训练需求后认为自建与云服务成本基本打平,且能获得更快实验速度[26][27][28] - 目前技术领先竞争对手6到12个月,具体优势取决于聚焦的细分领域[24] 业务模式与增长动力 - 企业客户成为业务核心,重点打造对话式Agents平台[37] - 最大单笔合同金额约200万美元,客户来自呼叫中心、客户支持、个人助理领域[38] - 重要合作伙伴包括思科、Twilio、Epic Games等,同时保持庞大自助用户群体[38] - 语音Agents业务被视为未来数十亿美元营收潜力的增长点[46] 融资策略与资本运作 - 种子轮融资异常艰难,被30到50位投资人拒绝,主要质疑研发难度、市场规模和产品护城河[64][65] - 融资宣布与重大产品动态、用户里程碑或核心招聘进展绑定,不单纯为宣布融资而宣布[70] - 每轮融资核心逻辑是"提前布局未来业务",如拓展模型能力、推进国际化、深耕Agents平台[44] - 几乎每轮融资都会推出员工股票二次出售和要约收购,为员工提供流动性[87] 组织管理与人才战略 - 坚持小团队模式,目前约250人拆分为20个5-10人小团队,按产品领域划分[50][51] - 取消头衔制度以优化影响力和决策效率,小团队核心是快速执行[52][53] - 创始人仍亲自参与每个候选人面试,年底计划将团队规模扩展至400人[56][59] - 注重本土人才培养,通过与美国投资人网络中的顾问配对指导团队成长[19] 竞争壁垒与核心优势 - 面对OpenAI等巨头的三点优势:顶尖研发团队、快速执行力、对语音AI应用场景的深度聚焦[16][18] - 全球顶尖语音技术研发人员仅50到100人,公司拥有5到10名顶尖人才[16] - 产品层面优势体现在创意领域语音产品的额外优化步骤和完整平台构建能力[17] - 策略是研发+产品+生态三者结合,研发提供的是未来1到3年对竞争对手的优势[23] 市场拓展与全球化布局 - 定位为全球化公司,目标在美国、欧洲和亚洲市场获胜[21] - 欧洲人才质量非常高,关键是要知道如何找到他们,越来越多欧洲公司展现全球化野心[20][21] - 反驳"欧洲人工作不拼"的片面说法,团队中有很多使命感驱动的人才[22] - 在国际化扩张中采取在巴西、日本、印度、墨西哥等地建立小型分支机构的模式[62]
人工智能系列报告(八):AI应用公司的估值方法
西部证券· 2025-08-11 23:09
行业投资评级 - 行业评级为超配 维持前次评级[7] 核心观点 - ARR(年度经常性收入)更适合作为高增长AI业务的估值锚点 高速增长的AI初创公司估值一般为ARR的50倍甚至更高[5] - 当前软件公司AI业务因其高成长性、强盈利潜力可以单独估值 建议给予50倍ARR的估值[6] - 50倍ARR的估值假设基础是:AI应用的ARR未来三年复合增长率为100% 稳态净利率达到30%[6] AI公司估值倍数分析 基础模型领域 - OpenAI估值约为ARR的40-60倍[5] - Anthropic估值约为ARR的40-60倍[5] AI应用领域 - 编程场景Anysphere(Cursor)估值约为ARR的40-65倍[5] - 视频生成Runway估值约为ARR的55倍[5] - 语音合成ElevenLabs估值约为ARR的40倍[5] - 搜索场景中2C的Perplexity估值约为ARR的140倍 2B的Glean估值约为ARR的60倍[5] - 企业软件中销售领域Clay估值约为ARR的50倍 招聘领域Mercor估值约为ARR的30倍[5] - 垂直行业中医疗笔记Abridge估值约为ARR的50倍 法律领域Harvey估值超ARR的60倍[5] 重点公司分析 OpenAI - 2025年8月洽谈以5000亿美元估值出售员工股份 年化收入达120亿美元[17] - 预测到2029年营收将超1250亿美元 2030年达1740亿美元[17] Anthropic - 2025年7月年化收入达40亿美元 计划以1700亿美元估值融资[19] Anysphere(Cursor) - 2025年6月ARR超5亿美元 估值99亿美元[29] - 提供三种订阅方案:Hobby免费 Pro版20美元/月 Business版40美元/用户/月[23] Runway - 2025年6月底年化营收超9000万美元 预计年底达2.65亿美元[35] - 正在洽谈以不低于50亿美元估值融资[35] ElevenLabs - 2025年ARR突破1亿美元[42] - 采用订阅制收费 覆盖To B和To C市场[42] Perplexity - 2024年收入3400万美元 毛利率60%[45] - 2025年7月估值达180亿美元 为ARR的140倍[51] Glean - 2025年1月ARR达1亿美元 预计2026年1月达2.35亿美元[59] - 2025年6月估值72亿美元 为ARR的60倍[60] Clay - 2024年收入3000万美元 同比增长500%[66] - 2025年6月完成C轮融资 估值达30亿美元[67] Mercor - 2025年3月ARR突破1亿美元 从100万到1亿仅用11个月[70] - 2025年2月B轮融资估值20亿美元 为ARR的近30倍[71] Abridge - 2025年Q1合同年经常性收入1.17亿美元 预计2025年底达2亿美元[79] - 2025年6月完成E轮融资 估值53亿美元[79] Harvey - 2024年ARR达5000万美元 预计8个月内达1亿美元[89] - 2025年6月完成E轮融资 估值50亿美元[89] 建议关注公司 - AI+ERP:金蝶国际 用友网络 鼎捷数智 汉得信息[95] - AI+电商:光云科技 焦点科技[95] - AI+财税:税友股份[95] - AI+工具:万兴科技 快手-W 美图公司 金山办公[95] - AI+营销/销售:迈富时 新致软件[95]
海外AI公司频超预期,中外AI共振时代到来
华鑫证券· 2025-06-09 08:35
报告行业投资评级 - 对电力设备板块维持“推荐”评级 [6][18] 报告的核心观点 - 伴随AI扩散法则废除,海外AI公司一季度业绩超预期,海外产业与资本市场双重共振,催化国内AI板块本周反弹;从产业端看,可灵AI月度付费金额连续两月破1亿元,阿里Qwen3 - Embedding系列模型上线且性能卓越 [5][14] - 此轮AI行情中,海外链估值有望持续修复,国内链逻辑较顺,均有较强上涨预期;柴发是量利齐升且逻辑最顺的板块,推荐关注潍柴重机;其次关注渗透率逐步提升的HVDC环节,推荐关注科华数据、通合科技;最后关注伴随功率提升而受益的服务器电源以及液冷环节,推荐关注英维克、麦格米特、申菱环境、欧陆通 [6][17] 根据相关目录分别进行总结 投资观点 - 海外AI公司如Credo、纬创一季度业绩超预期,海外铜缆龙头安费诺等股价表现良好,海外产业与资本市场共振催化国内AI板块反弹;产业端可灵AI付费高,阿里新模型性能优 [5][14] - 各板块投资建议为关注潍柴重机、科华数据、通合科技、英维克、麦格米特、申菱环境、欧陆通 [6][17] 行业动态 - 6月3日,北京理工大学团队推出教育评估基准EduBench,智源研究院等发布超长视频理解模型Video - XL - 2 [20] - 6月4日,人形机器人厂商“加速进化”完成超亿元A轮融资,柯力传感完成对猿声科技战略投资,图灵奖得主创办非营利机构LawZero,AI编程工具Windsurf服务配额减少,埃斯顿拟发行H股上市 [20][21][22] - 6月5日,亚马逊测试人形机器人投递包裹,中国电气装备发布储能电芯集采 [22] - 6月6日,小红书开源自研大模型dots.llm1,“2025消费金融生态大会”举行,ElevenLabs发布TTS模型Eleven v3 [23][24] 光伏产业链跟踪 - 硅料:端午后厂家博弈,采购方压价,成交少,国产颗粒硅签单交付较好,海外厂家发货受影响,大宗成交看大型厂家博弈,部分厂家确认减产 [25] - 硅片:六月初终端需求减弱,价格横盘,排产环比小降,210N电池价格松动或压缩对应硅片价格空间 [26] - 电池片:价格因尺寸供需不同有差异,210R价格持稳或小涨,183N、210N有下探可能;海外电池片输美均价短期有支撑,关注美国贸易政策 [27][29] - 组件:中国组件价格与上周相同,需求弱势,关注海外退货和库存影响;海外各区域市场价格有差异,美国市场受关税影响大 [30][35] - 光伏辅材:本周EVA粒子、背板PET、边框铝材、支架热卷、光伏玻璃价格下降,电缆电解铜价格上涨;各材料价格后续走势有不同预期 [37][38] 上周市场表现 - 电力设备板块上周涨幅1.38%,排名第13名,跑赢上证综指和沪深300指数,光伏板块上涨1.24个百分点 [40] - 申万电力设备成分股中,周涨幅前五为顺钠股份、新联电子、科华数据、百利电气、天正电气;周跌幅前五为弘讯科技、中环海陆、久盛电气、汇金通、长城电工 [42] 储能市场数据跟踪 - 2025年5月第1周,EPC和储能系统设备招标规模超3GWh,在建/并网投运项目规模超5GWh,覆盖多省份多场景 [47] - 项目方面,河北交投隆化蝉鸣山储能电站全容量并网,新疆华能项目全容量并网;甘肃武威市凉州区有储能电站项目EPC招标 [47][48]
电力设备行业周报:海外AI公司频超预期,中外AI共振时代到来-20250608
华鑫证券· 2025-06-08 23:34
报告行业投资评级 - 对电力设备板块维持“推荐”评级 [6][18] 报告的核心观点 - 海外AI公司一季度业绩超预期,产业与资本市场双重共振催化国内AI板块反弹,此轮AI行情中海外链估值有望修复,国内链逻辑较顺,均有上涨预期 [5][14][17] - 柴发是量利齐升且逻辑最顺的板块,推荐关注潍柴重机;建议关注渗透率逐步提升的HVDC环节,推荐科华数据、通合科技;建议关注伴随功率提升而受益的服务器电源以及液冷环节,推荐英维克、麦格米特、申菱环境、欧陆通 [6][17] 根据相关目录分别进行总结 投资观点 - 海外AI公司如Credo、纬创一季度业绩超预期,海外铜缆、AI应用、算力租赁、ASIC、GPU等龙头股价表现良好,海外产业与资本市场共振催化国内AI板块反弹 [5][14] - 产业端可灵AI月度付费金额连续两月破1亿元,阿里Qwen3 - Embedding系列模型上线且性能卓越 [5][14] 行业动态 - 北京理工大学推出教育评估基准EduBench,智源研究院等发布超长视频理解模型Video - XL - 2 [20] - 人形机器人整机厂商“加速进化”完成超亿元A轮融资,柯力传感完成对猿声科技战略投资 [20][21] - 图灵奖得主创办非营利机构LawZero,AI编程工具Windsurf服务配额减少 [21] - 埃斯顿拟发行H股上市,亚马逊测试人形机器人投递包裹,中国电气装备进行储能电芯集采 [22] - 小红书开源自研大模型dots.llm1,“2025消费金融生态大会”举行,ElevenLabs发布TTS模型Eleven v3 [23][24] 光伏产业链跟踪 - 硅料市场处于博弈阶段,采购方压价,成交少,部分厂家确认减产,大宗减产或在七至八月 [25] - 硅片价格横盘,月初排产环比小幅下调,210N电池价格松动或压缩对应硅片价格空间 [26] - 电池片价格因尺寸供需不同有差异,210R价格持稳或小涨,183N、210N有下探可能,海外电池片价格受美国贸易政策影响 [26][27][29] - 中国组件价格稳定,需求弱势,需关注海外退货和库存影响;海外市场整体维稳,各区域价格有差异 [30][31][35] - 光伏辅材价格多数下降,EVA粒子、背板PET、边框铝材、支架热卷、光伏玻璃价格下降,电缆电解铜价格上涨 [37][38][39] 上周市场表现 - 电力设备板块上周涨幅1.38%,排名第13名,跑赢上证综指和沪深300指数,光伏板块上涨1.24个百分点 [40] - 申万电力设备成分股中,周涨幅前五为顺钠股份、新联电子、科华数据、百利电气、天正电气;周跌幅前五为弘讯科技、中环海陆、久盛电气、汇金通、长城电工 [42] 储能市场数据跟踪 - 2025年5月第1周,EPC和储能系统设备招标规模超3GWh,在建/并网投运项目规模超5GWh,覆盖多省份多场景 [47] - 河北交投隆化蝉鸣山独立储能电站全容量并网,新疆华能光伏+压缩空气储能项目全容量并网 [47] - 甘肃省武威市凉州区独立储能电站项目EPC招标,规模0.3GW/1.2GWh [48]
腾讯研究院AI速递 20250609
腾讯研究院· 2025-06-08 21:26
一、OpenAI升级高级语音功能 - ChatGPT高级语音功能升级,声音更自然,能表达情感和语调变化,使交流更具人性化 [1] - 新增实时翻译功能,支持跨语言对话,可在国际环境中充当同声传译,无缝衔接对话 [1] - 该功能已向所有付费用户开放,用户只需点击输入框中的语音图标即可使用 [1] 二、ElevenLabs发布Eleven v3 - ElevenLabs发布新版TTS模型Eleven v3,支持70多种语言,声称是"迄今为止最具表现力的文本转语音模型" [2] - 引入音频标签系统,可精确控制情感表达,包括情感标签、音效标签和特殊标签,标点符号也影响情绪传递 [2] - 支持多人对话功能,可为不同角色分配不同语音,英语效果优于中文,目前处于内测阶段 [2] 三、Fish Audio推出OpenAudio S1 - Fish Audio推出OpenAudio S1声音克隆模型,支持通过指令精确控制语音情感、语气和节奏,表现力媲美专业配音 [3] - 采用双自回归架构和RLHF技术,支持13种语言,包括中英日等,在TTS-Arena排名第一 [3] - 定价每百万字节15美元(约0.8美元/小时),适用于内容创作和配音领域,未来计划推出版权音色注册与分成机制 [3] 四、爱诗科技推出PixVerse国内版 - 爱诗科技推出PixVerse国内版"拍我AI",海外已积累6000万用户,月活1600万,在美国曾超越TikTok位列总榜第四 [4] - 产品提供丰富功能,包括百种模板、首尾帧、多主体、运镜、视频重绘等,生成速度快(不超过1分钟),底模已升级至PixVerse V4.5 [4] - "拍我AI"兼顾"好玩"与"好用"特性,既能让普通用户通过简单模板快速体验创作乐趣,也满足专业创作者对功能完整性和效率的需求 [5] 五、智源研究院发布悟界系列大模型 - 智源研究院发布全新悟界系列大模型,旨在促进AI从数字世界迈向物理世界,包含四款大模型覆盖微观生命到具身智能领域 [6] - 悟界系列包括原生多模态世界模型Emu3、脑科学多模态基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0和具身大脑RoboBrain 2.0、全原子微观生命模型OpenComplex2 [6] - 智源已开源约200个模型和160个数据集,全球总下载量超6.4亿次,构建了覆盖模型、算法、数据、评测、系统的大模型开源技术体系 [6] 六、AI在数学领域的突破 - 30位顶尖数学家在UC伯克利对OpenAI的o4-mini进行秘密测试,发现AI能解决约20%的教授级数学难题,表现超越多数参赛团队 [7] - 数学家Ken Ono承认AI展现出接近数学天才的水平,能在几分钟内解决人类专家需要数周甚至数月才能完成的复杂问题 [7] - 陶哲轩已在社交平台分享AI在数学研究中的惊人进展,如与AlphaEvolve合作突破18年未解的和差集指数问题,预示AI将成为数学研究中值得信赖的合作者 [7] 七、Figure AI人形机器人进展 - Figure AI人形机器人Helix在物流仓库工作三个月后实现重大突破,能处理硬质纸箱、塑料袋和扁平信封等多种包裹类型 [8] - 机器人性能显著提升:包裹处理速度从5.0秒/件提高到4.05秒/件,条形码扫描成功率从70%升至95%,并展现出自适应行为如拍平褶皱包裹 [8] - 突破归功于三大技术增强(视觉记忆、状态历史、力反馈)和训练数据规模扩展(从10小时增至60小时),机器人还能通过"视觉条件化"实现与人类协作递物 [8] 八、苹果对推理模型的质疑 - 苹果研究质疑推理模型真实能力,认为DeepSeek、Claude等只创造思考印象而非具备稳定思维过程 [10] - 通过汉诺塔等谜题测试发现,推理模型面对高复杂度问题会出现"断崖崩溃"和"思考退化",甚至无法执行给定算法 [10] - 研究显示三种性能区间:简单问题标准模型更优,中等复杂度推理模型占优,高复杂度两类模型均失效 [10] 九、OpenAI对AI依赖性的看法 - OpenAI负责人Jang首次回应人机情感问题,承认用户正对ChatGPT产生依赖,认为随着AI系统融入更多生活场景,这种情感纽带将加深 [11] - 文章将AI意识分为"本体论意识"和"感知意识"两个维度,预测即使用户知道AI无意识,感知意识仍将随模型智能化增强 [11] - OpenAI寻求产品设计平衡点:让ChatGPT保持温暖体贴但不追求情感连接,将扩展评估、加深研究并公开分享发现 [11] 十、谷歌CEO谈AI发展 - 谷歌CEO Pichai表示随着AI模式功能成熟将迁移到主搜索页面,AI概览已提升用户满意度并推动产品增长 [12] - 谷歌内部AI工具生成约30%代码,提升工程效率10%,Pichai认为AI将让程序员专注更具创造性的工作 [12] - Pichai认为我们处于非均衡人工智能阶段,2030年前难达成AGI,他相信AI具递归自我改进能力,将成为比电更重要的科技发明 [12]
AI文本转语音进入“Next Level”!独角兽ElevenLabs发布Eleven v3:狠狠拿捏情感控制
量子位· 2025-06-06 21:45
新产品发布 - 专攻AI语音合成的独角兽公司ElevenLabs发布最新版文本转语音模型Eleven v3 [1] - 官方宣称这是迄今为止最具表现力的文本转语音模型 [3] - 新模型发布后迅速在AI圈引起热议 [4] 核心功能亮点 - 新模型支持70多种语言,包含中文,并能进行生动的多人对话 [2] - 引入音频标签功能以控制情绪表达,包括情感表达标签、音效标签和特殊标签三大类 [17][20] - 实现了从单人语音生成到多人对话的升级,用户可为每个说话者分配不同的语音 [24][25] 技术细节与性能 - 模型提供22位不同音色的配音老师,主要来自美国和英国,适用于叙事、对话、社交媒体等多种场景 [11][12] - 用户可通过“稳定性滑块”控制生成声音与原始参考音频的接近程度 [12] - 正确使用标点符号对情绪传递有显著影响,例如省略号可增加停顿和强调 [21][22] - 官方建议文本字符最好超过250个,以避免输出不一致 [8] 市场反馈与应用潜力 - 内测用户反馈总体积极,认为v3在情感表达上相比v2有显著提升 [27][28] - 有网友表示其情感识别功能令人印象深刻,但在非英语语种如中文上的效果仍有提升空间 [15][29][31] - 该技术对有声书配音、体育赛事解说等场景具有潜在颠覆性影响 [1][5]