Workflow
Speech-02语音模型登顶国际榜单:完美复刻声音,同事听后难辨真伪
歸藏的AI工具箱·2025-05-15 17:14

藏师傅很多时候早上上班和洗澡之前都是听音乐的,虽然我喜欢看小说, 但之前 对那种 AI 生成的音频听书 嗤之以鼻。 但是那天无意间用了一下起点新的听书功能 , 发现居然都这么牛了,前几天交流发现他们的语音生成服务居 然是用的 MiniMax 的 Speech 模型,而且就是我最喜欢那个「说书先生」的角色。 最近发现他们更新 的 Speech-02 音频模型, 在Artifici al Analysis 的 ELO 评价榜单上吊打 Open AI 和 Ele venLabs 一众海外音频模型,基本上霸榜了。 Hugging Face上,不出意外,也是第一名的成绩。 这次 Speech-02 最大的创新在于引入了可学习的说话人编码器,它能 从参考音频中提取音色特征,无需音 频转录 。基于这个就可以实现很多能力,比如 只需要一段 十几秒的 语言就能实现高质量的声音参考能力 ; 因为说话人编码器捕捉的是与语言无关的音色特征, 还能实现将音色迁移到别的语言上 ,这个对于内容出海 很有帮助; Speech-02还 带来了 非常高的可扩展性 ,音色可以用在情感控制、文本到音色、专业语音参考等下游任 务,不需要更换模型。 另 ...