Workflow
这才是现在最强的AI声音模型。
数字生命卡兹克·2025-05-15 23:40

MiniMax新一代语音模型Speech-02技术突破 - 公司发布新一代语音模型Speech-02,在多语言语音合成领域实现全面技术突破,超越前代产品Speech-01和竞争对手11Labs [1][6] - 新模型在32种语言测试中,WER(词错误率)和SIM(音色相似度)指标全面领先11Labs,特别是在亚洲语言(中文、日语、越南语、泰语)表现突出 [3][5][6] - 中文WER低至2.252(11Labs为16.026),SIM达0.780(11Labs为0.677),显示在母语市场保持绝对优势 [3][5] 技术性能指标 - WER指标(越低越好):主流语种平均1-4,越南语最低0.880,粤语最高34.111 [3][5] - SIM指标(越高越好):希腊语最高0.826,法语最低0.628,32种语言全部超过竞争对手 [3][5] - 在AI音频盲测竞技场中,Speech-02-HD以1163 ELO评分登顶,超越OpenAI TTS-1 HD(1150)和11Labs Multilingual v2(1112) [7] 产品应用与商业化 - 语音克隆功能目前仅限海外版产品使用,免费用户可克隆3个声音,5美元会员可创建10个 [8][10] - 支持语音样本最短10秒(推荐30秒),处理时间仅需十几秒,比上一代效率显著提升 [12] - 新增API接口支持,可集成到Agent产品和MCP(多模态控制平台)中 [17] 多语言支持进展 - 支持语言从12种扩展到32种,新增包括乌克兰语、波兰语、罗马尼亚语等小语种 [13] - 混合语言处理能力显著提升,能准确识别和处理中日英三语混合文本 [15] - 在讲故事场景中能自动调整音调和情绪,实现角色语音差异化 [17] 行业地位与影响 - 公司产品实现从"中文最强"到"全球最强"的跨越,打破英语系公司在AI语音领域的主导地位 [17][20][23] - 通过支持小语种推动"语言平权",使非主流语言获得数字化表达机会 [24][25] - 当前AI语音领域关注度较低,行业焦点集中在Agent和MCP方向 [4][18]