Text-To-Speech

搜索文档

AI前线· 2025-05-15 14:45

TTS行业动态 - 近期TTS领域呈现"群星闪耀"态势，科技巨头、创业公司和研究机构密集发布新品，包括字节跳动MegaTTS3-Global、出门问问Spark-TTS和OpenAI基于GPT-4o-mini架构的TTS模型 [1] - TTS技术虽低调但已成为智能硬件、数字人等场景的"隐形基石"，凭借广泛应用和商业前景在一年内取得显著进步 [1] - MiniMax推出的Speech-02语音模型以1161 ELO评分登顶Arena榜单，超越OpenAI和ElevenLabs的同类产品 [2][5] Speech-02技术优势 - 在字错率（WER）方面表现优异，中文和粤语分别低至2.252%和34.111%，显著优于ElevenLabs的16.026%和51.513% [6][7] - 相似度（SIM）指标全面领先，在24种评估语言中生成的克隆语音更接近真人 [5][7] - 采用创新Flow-VAE架构，通过流匹配模型直接模拟语音特征分布，避免传统梅尔频谱图的信息瓶颈问题 [16][18] - 在声码器重合成测试中，Flow-VAE相比VAE在所有评估指标上均展现显著优势，如SELF-SIM从0.98提升至0.986 [20] 商业化应用表现 - 定价50美元/百万字符文本，仅为ElevenLabs Flash v2.5（103美元）的一半，性价比优势明显 [11] - 支持32种语言多语种切换，实测显示能自然处理中文、日语、英语混合文本 [9][10] - 已应用于教育领域（如"吴彦祖AI口语陪练"）、智能硬件（Bubble Pal玩具）和汽车领域（极狐汽车智能座舱） [24][26] - 服务全球超5万家企业用户，包括阅文起点有声书、高途教育等知名企业 [27] 行业影响 - 开创"任意音色，灵活控制"新范式，是业内首个实现该功能的模型 [10] - 通过可学习speaker编码器实现零样本语音克隆，仅需未转录音频片段即可模仿目标音色 [13][14] - 技术突破可能改写AI应用交互范式，推动广播剧、有声小说等音频内容生产方式变革 [10][27]

Text-To-Speech

Artificial Intelligence

Artificial Intelligence

Speech-02

MegaTTS3-Global

Spark-TTS

Cartesia: 3 个月融资 9100 万美元，从 Transformer 到 Mamba 重塑语音 AI

海外独角兽· 2025-04-03 20:04

作者：linlin 编辑：haina 2025 年 3 月 11 日，语音生成初创公司 Cartesia 宣布完成 6400 万美元 A 轮融资，距其 2700 万美元种子轮融资仅过去不到 3 个月。本轮融资由 Kleiner Perkins 领投，Lightspeed、Index、A*、Greycroft、 Dell Technologies Capital 和 Samsung Ventures 等跟投。Cartesia 还同时推出了其旗舰产品 Sonic 2.0，系统延迟从 90 毫秒缩短至 45 毫秒，为语音 AI 领域高效、实时且低成本的多模态交互提供了新动力。 Cartesia 的核心团队均来自 Stanford AI labs，包括 Karan Goel、Albert Gu、Arjun Desai、Brandon Yang 四位校友及其共同导师 Chris Ré。团队共同的研究方向在于 SSM（状态空间模型）。从 S4 到 Mamba 的 SSM 系列研究，以线性时间复杂度，为解决 LLMs 主流架构 Transformer 在上下文长度的固有局限提供了潜在解决方案，意味着更快的生成速度、 ...

Transformer

Mamba

SSM（State Space Model）

TTS（Text-to-Speech）

Artificial Intelligence

Voice Changer

Transformer

Mamba

SSM（State Space Model）

TTS（Text-to-Speech）

Artificial Intelligence

Voice Changer