AI文本转语音进入“Next Level”!独角兽ElevenLabs发布Eleven v3:狠狠拿捏情感控制
量子位·2025-06-06 21:45

新产品发布 - 专攻AI语音合成的独角兽公司ElevenLabs发布最新版文本转语音模型Eleven v3 [1] - 官方宣称这是迄今为止最具表现力的文本转语音模型 [3] - 新模型发布后迅速在AI圈引起热议 [4] 核心功能亮点 - 新模型支持70多种语言,包含中文,并能进行生动的多人对话 [2] - 引入音频标签功能以控制情绪表达,包括情感表达标签、音效标签和特殊标签三大类 [17][20] - 实现了从单人语音生成到多人对话的升级,用户可为每个说话者分配不同的语音 [24][25] 技术细节与性能 - 模型提供22位不同音色的配音老师,主要来自美国和英国,适用于叙事、对话、社交媒体等多种场景 [11][12] - 用户可通过“稳定性滑块”控制生成声音与原始参考音频的接近程度 [12] - 正确使用标点符号对情绪传递有显著影响,例如省略号可增加停顿和强调 [21][22] - 官方建议文本字符最好超过250个,以避免输出不一致 [8] 市场反馈与应用潜力 - 内测用户反馈总体积极,认为v3在情感表达上相比v2有显著提升 [27][28] - 有网友表示其情感识别功能令人印象深刻,但在非英语语种如中文上的效果仍有提升空间 [15][29][31] - 该技术对有声书配音、体育赛事解说等场景具有潜在颠覆性影响 [1][5]