Workflow
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
机器之心·2025-05-15 14:04

国产大模型技术突破 - 国产大模型MiniMax的Speech-02语音大模型在国际权威语音评测榜单Artificial Analysis上登顶,击败OpenAI和ElevenLabs [1] - Speech-02在字错率(WER)和说话人相似度(SIM)等关键指标上取得SOTA结果,WER最低达0.83(中文)和1.65(英文),SIM最高达0.799(中文)和0.738(英文) [1][24] - 该模型成本仅为ElevenLabs竞品模型的1/4,展现出极高的性价比优势 [4] 核心技术创新 - 采用自回归Transformer架构,实现真正意义上的零样本语音克隆,仅需几秒参考音频即可模仿目标说话人特征 [12][14] - 提出Flow-VAE架构,通过流匹配模型增强语音生成质量,使合成语音更接近真人 [13][17] - 引入T2V框架,结合自然语言描述与结构化标签信息,实现高度灵活可控的音色生成 [21] 多语言与跨语言能力 - 支持32种语言,在中英、粤语、葡萄牙语、法语等语种表现突出 [38] - 在24种测试语言中SIM指标均显著优于ElevenLabs multilingual_v2模型 [26] - 跨语言测试显示WER表现优异,如越南语WER仅0.659,泰语2.826,阿拉伯语1.446 [28] 产品特性与用户体验 - 提供超拟人化语音合成,预置数百种多语言声音库,错误率比真人更低 [32][33] - 支持声音克隆功能,用户可通过简短录音获得专属AI语音 [34][36] - 提供7种情绪控制选项(悲伤、快乐、生气等),可调节语速和语调 [36][37] 商业化应用前景 - 已形成文本、语音、视频完整产品链,如海螺AI等产品 [44] - 应用场景覆盖语音助手、声聊唱聊、配音等领域,加速商业化进程 [44] - 接入AI硬件生态,包括儿童玩具、教育学习机、汽车智能座舱等赛道 [44]