CosyVoice2

搜索文档
MiniMax登顶、多家创企融资,AI语音离“现实场景”还有多远?
创业邦· 2025-06-06 11:17
AI语音模型发展现状 - MiniMax最新语音模型Speech-02-HD在4月12日上线后,于5月15日登顶Artificial Analysis Speech Arena和Hugging Face TTS Arena两大榜单,技术指标在错字率、声音相似度等客观测试中领先竞品 [4] - 行业融资活跃:Cartesia于3月11日完成6400万美元AI轮融资,Hume AI于3月29日完成5000万美元融资,大厂如Amazon推出Nova Sonic,Google在Veo3中整合了惊艳的语音合成功能 [5] - 主流模型竞争格局:MiniMax Speech-02-HD以1161 Arena ELO评分领先,OpenAI TTS-1 HD(1151分)和ElevenLabs Multilingual v2(1116分)分列二三位 [4] 多场景测试结果 中文有声书场景 - 愤怒情绪测试中,MiniMax Speech-02-HD和DubbingX分别获得3.8和3.6分(满分5分),显著优于CosyVoice2的2.2分,能还原《水浒传》林冲台词的情感递进 [15] - 悲伤情绪测试仅DubbingX达标(3.4分),其优势在于提供"悲伤+愤怒"等复合情感标签,而MiniMax未通过客观测试 [16][17] 英文有声书场景 - 测试《基督山伯爵》复仇独白时,三款模型全军覆没:MiniMax得2.6分,ElevenLabs 2.8分,Sesame仅1.4分且误判情绪为"开心" [19][21] - ElevenLabs因缺乏情感标签功能,仅能通过抽象参数(速度、稳定度等)调节,导致表现欠佳 [23] 直播带货场景 - 三款模型虽通过客观测试,但主观评分均低于3分:MiniMax 2.6分,DubbingX 2.4分,CosyVoice2 2.2分,主要问题是缺乏真人主播的节奏韵律 [26] AI陪伴场景 - MiniMax表现最佳(3.2分),能传达温暖情绪;DubbingX和CosyVoice2分别得2.4分和3分,证明在情感单一场景中可用性较高 [30] 技术应用与商业化 - ToB领域已广泛落地:ElevenLabs被Synthesia用于AI数字人、Washington Post用于新闻简报;MiniMax与阅文集团合作有声书,阿里CosyVoice2应用于宝马智能车机 [38] - 工程化关键:开发者需预设情绪模板,通过算法映射用户情感输入并转化为API参数,结合声音类型生成适配语音 [36][37] - 垂直场景优化案例:DubbingX针对中文有声书设计细分情感标签,在复合情绪场景表现优于通用模型 [33]
MiniMax登顶、多家创企融资,AI语音离“现实场景”还有多远?
36氪· 2025-06-06 10:49
AI语音模型技术进展 - MiniMax最新语音生成模型Speech-02-HD在5月15日登顶Artificial Analysis Speech Arena和Hugging Face TTS Arena两大榜单,技术指标包括错字率、声音相似度等客观指标领先竞品,主观盲听测试表现优异[2] - 行业技术迭代加速,2月测试显示AI语音情感表达不足,但4-5月新品如Speech-02-HD在愤怒情绪测试中平均分达3.8分(满分5分),显示显著进步[1][12] - DubbingX在复合情感场景表现突出,因其细分情感标签设计,在"武松哭兄"测试中平均分3.4分,优于其他模型[13][15] 行业融资与竞争格局 - 2024年3月Cartesia完成6400万美元融资,Hume AI完成5000万美元融资,显示资本持续加注AI语音赛道[3] - 大厂纷纷入局:Amazon推出Nova Sonic,Google在Veo3整合语音模型,阿里开源CosyVoice2并应用于宝马智能车机[3][31] - MiniMax于2024年3月完成6亿美元B轮融资,ElevenLabs在2025年1月完成1.8亿美元C轮融资[6] 应用场景测试表现 - 直播带货场景中三款模型均未通过主观测试(平均分最高2.6分),评委认为情感传达合格但缺乏真人节奏感[22] - AI陪伴场景表现最佳,Speech-02-HD平均分3.2分,能准确传递温暖情绪[26] - 英文有声书场景全军覆没,ElevenLabs和Sesame因缺乏情感标签功能,测试中最高分仅2.8分[19] 技术商业化落地 - ToB领域应用广泛:MiniMax与阅文集团合作有声书,ElevenLabs服务《华盛顿邮报》新闻简报,阿里CosyVoice2接入宝马智能车机[31] - 工程化设计成关键差异点,DubbingX通过细分情感标签实现场景适配,而ElevenLabs仅提供抽象参数调节导致表现不佳[15][19] - 实际应用中需结合情感识别算法和Preset语音优化输出,如AI陪伴产品通过情绪映射提升API调用效果[30]