这才是现在最强的AI声音模型。

MiniMax新一代语音模型Speech-02技术突破 - 公司发布新一代语音模型Speech-02，在多语言语音合成领域实现全面技术突破，超越前代产品Speech-01和竞争对手11Labs [1][6] - 新模型在32种语言测试中，WER（词错误率）和SIM（音色相似度）指标全面领先11Labs，特别是在亚洲语言（中文、日语、越南语、泰语）表现突出 [3][5][6] - 中文WER低至2.252（11Labs为16.026），SIM达0.780（11Labs为0.677），显示在母语市场保持绝对优势 [3][5] 技术性能指标 - WER指标（越低越好）：主流语种平均1-4，越南语最低0.880，粤语最高34.111 [3][5] - SIM指标（越高越好）：希腊语最高0.826，法语最低0.628，32种语言全部超过竞争对手 [3][5] - 在AI音频盲测竞技场中，Speech-02-HD以1163 ELO评分登顶，超越OpenAI TTS-1 HD（1150）和11Labs Multilingual v2（1112） [7] 产品应用与商业化 - 语音克隆功能目前仅限海外版产品使用，免费用户可克隆3个声音，5美元会员可创建10个 [8][10] - 支持语音样本最短10秒（推荐30秒），处理时间仅需十几秒，比上一代效率显著提升 [12] - 新增API接口支持，可集成到Agent产品和MCP（多模态控制平台）中 [17] 多语言支持进展 - 支持语言从12种扩展到32种，新增包括乌克兰语、波兰语、罗马尼亚语等小语种 [13] - 混合语言处理能力显著提升，能准确识别和处理中日英三语混合文本 [15] - 在讲故事场景中能自动调整音调和情绪，实现角色语音差异化 [17] 行业地位与影响 - 公司产品实现从"中文最强"到"全球最强"的跨越，打破英语系公司在AI语音领域的主导地位 [17][20][23] - 通过支持小语种推动"语言平权"，使非主流语言获得数字化表达机会 [24][25] - 当前AI语音领域关注度较低，行业焦点集中在Agent和MCP方向 [4][18]