AI文本转语音进入“Next Level”!独角兽ElevenLabs发布Eleven v3:狠狠拿捏情感控制
量子位·2025-06-06 21:45
一水 发自 凹非寺 量子位 | 公众号 QbitAI AI文本转语音已经进化到这种程度了吗?(⊙ˍ⊙) 莎士比亚戏剧腔、体育赛事激情解说、沉浸式有声书等诸多玩法简直轻松拿捏,而且听起来确实人机傻傻分不清楚~ 就在刚刚,专攻AI语音合成的独角兽ElevenLabs发布旗下最新版TTS模型—— Eleven v3 。 不仅支持70多种语言 (含中文) ,还能进行多人对话聊天,过程中每个人的情绪、语气等表现都非常生动。 官方自信表示,这是 "迄今为止最具表现力的文本转语音模型" 。 新模型发布不久即在AI圈引起热议,Reddit网友也齐聚一堂疯狂讨论。 RIP有声书配音。 对于英语为第二语言的人来说,根本无法区分AI和真人,唯一不足的是他们太热情了! 目前Eleven v3仍处于内部测试阶段,API即将推出,实时在线版本正在开发中。 那么,新模型具体有哪些亮点?又是如何做到的呢? 引入音频标签控制情绪 接下来我们结合官方提供的 「使用指南」 一步步拆解Eleven v3的 亮点及背后原理 。 首先需要提醒,提示词过短更容易导致输出不一致,因此官方建议文本字符最好超过250个。 如何选择想要的声音? 一般拿到一段需要 ...