Workflow
Text-To-Speech
icon
搜索文档
登顶 Arena!MiniMax 最新 Speech-02 模型屠榜:超越OpenAI、ElevenLabs,人声相似度99%
AI前线· 2025-05-15 14:45
TTS行业动态 - 近期TTS领域呈现"群星闪耀"态势,科技巨头、创业公司和研究机构密集发布新品,包括字节跳动MegaTTS3-Global、出门问问Spark-TTS和OpenAI基于GPT-4o-mini架构的TTS模型 [1] - TTS技术虽低调但已成为智能硬件、数字人等场景的"隐形基石",凭借广泛应用和商业前景在一年内取得显著进步 [1] - MiniMax推出的Speech-02语音模型以1161 ELO评分登顶Arena榜单,超越OpenAI和ElevenLabs的同类产品 [2][5] Speech-02技术优势 - 在字错率(WER)方面表现优异,中文和粤语分别低至2.252%和34.111%,显著优于ElevenLabs的16.026%和51.513% [6][7] - 相似度(SIM)指标全面领先,在24种评估语言中生成的克隆语音更接近真人 [5][7] - 采用创新Flow-VAE架构,通过流匹配模型直接模拟语音特征分布,避免传统梅尔频谱图的信息瓶颈问题 [16][18] - 在声码器重合成测试中,Flow-VAE相比VAE在所有评估指标上均展现显著优势,如SELF-SIM从0.98提升至0.986 [20] 商业化应用表现 - 定价50美元/百万字符文本,仅为ElevenLabs Flash v2.5(103美元)的一半,性价比优势明显 [11] - 支持32种语言多语种切换,实测显示能自然处理中文、日语、英语混合文本 [9][10] - 已应用于教育领域(如"吴彦祖AI口语陪练")、智能硬件(Bubble Pal玩具)和汽车领域(极狐汽车智能座舱) [24][26] - 服务全球超5万家企业用户,包括阅文起点有声书、高途教育等知名企业 [27] 行业影响 - 开创"任意音色,灵活控制"新范式,是业内首个实现该功能的模型 [10] - 通过可学习speaker编码器实现零样本语音克隆,仅需未转录音频片段即可模仿目标音色 [13][14] - 技术突破可能改写AI应用交互范式,推动广播剧、有声小说等音频内容生产方式变革 [10][27]
Cartesia: 3 个月融资 9100 万美元,从 Transformer 到 Mamba 重塑语音 AI
海外独角兽· 2025-04-03 20:04
作者:linlin 编辑:haina 2025 年 3 月 11 日,语音生成初创公司 Cartesia 宣布完成 6400 万美元 A 轮融资,距其 2700 万美元种 子轮融资仅过去不到 3 个月。本轮融资由 Kleiner Perkins 领投,Lightspeed、Index、A*、Greycroft、 Dell Technologies Capital 和 Samsung Ventures 等跟投。Cartesia 还同时推出了其旗舰产品 Sonic 2.0, 系统延迟从 90 毫秒缩短至 45 毫秒,为语音 AI 领域高效、实时且低成本的多模态交互提供了新动 力。 Cartesia 的核心团队均来自 Stanford AI labs,包括 Karan Goel、Albert Gu、Arjun Desai、Brandon Yang 四位校友及其共同导师 Chris Ré。团队共同的研究方向在于 SSM(状态空间模型)。从 S4 到 Mamba 的 SSM 系列研究,以线性时间复杂度,为解决 LLMs 主流架构 Transformer 在上下文长度的 固有局限提供了潜在解决方案,意味着更快的生成速度、 ...