Audio Content Generation

搜索文档
Speech-02语音模型登顶国际榜单:完美复刻声音,同事听后难辨真伪
歸藏的AI工具箱· 2025-05-15 17:14
行业技术发展 - MiniMax的Speech-02音频模型在Artificial Analysis的ELO评价榜单上表现优异,超越OpenAI和ElevenLabs等海外竞争对手 [2] - 该模型在Hugging Face平台上也取得第一名成绩 [2] - 在ELO评分中,MiniMax Speech-02-HD以1805分位居榜首,Win Rate达60% [3] - MiniMax Speech-02-Turbo以1766分排名第二,Win Rate为58% [3] 技术创新 - Speech-02引入可学习的说话人编码器,能从参考音频提取音色特征,无需音频转录 [4] - 仅需十几秒语音即可实现高质量声音参考 [4] - 具备音色跨语言迁移能力,对内容出海有帮助 [4] - 模型具有高度可扩展性,音色可用于情感控制、文本到音色等下游任务 [5] - 支持结合自然语言描述和结构化标签生成任意音色 [7] - 声音和语言解耦,可用参考声音生成其他语种音频 [16] 产品性能 - 延续01版本优势,提供丰富预设音色和情感选项 [9] - 能准确处理生僻字和多音字,测试中零错误 [10][11] - 支持30多种语言,多语言混合表现优异 [12][13] - 声音参考能力强大,可高度还原个人语音特征 [14][15] - 能学习说话停顿节奏、口癖和语气词 [14] 应用场景 - 小说听书场景可实现角色音色个性化,提升代入感 [7] - 视频创作中可用于字幕转语音,提升内容质量 [17][18] - B端客户已可通过API接口测试文生音色功能 [8] - 个人用户功能预计将后续开放 [8] 市场定位 - 公司在中文音频生成领域展现技术优势 [18] - 通过持续迭代超越ElevenLabs和OpenAI等国际平台 [18] - 深度本土化研发是技术发展关键优势 [18] - 音频内容生成是AI领域中被低估但重要的环节 [18]