通义百聆迎来重磅升级 Fun-CosyVoice3(0.5B)正式开源可实现极速克隆音色

通义百聆语音模型升级 - 核心观点：通义百聆语音模型完成多项关键升级，显著提升了语音合成与识别的性能、效率和应用范围，并开源轻量化模型以降低部署成本 [1][2] 模型性能与效率提升 - Fun-CosyVoice3模型首包延迟降低50%，实现“输入即发声”的流式合成 [1][2] - 模型的中英混说词错误率相比之前降低56.4%，提升了含专业术语、大小写混排及语码转换句子的发音准确性 [2] - 在zero-shot TTS评测的复杂场景中，字符错误率相对降低26%，接近人类录音水平 [2] - 轻量化版本Fun-ASR-Nano模型总参数量压缩到0.8B，推理成本更低 [1] - Fun-ASR流式识别模型的首字延迟降低到160ms [2] 功能与覆盖范围扩展 - Fun-CosyVoice3模型支持9种通用语言、18种中文方言口音及9种情感控制 [1][2] - 模型具备跨语种音色克隆能力，可用一段普通话录音生成粤语、日语、英语等语音并保持音色一致 [2] - 正式开源的Fun-CosyVoice3(0.5B)版本提供zero-shot音色克隆能力，仅需3秒以上参考音频即可复刻音色 [1] - Fun-ASR模型重点优化了嘈杂环境鲁棒性、多语言自由混说、中文方言与口音覆盖及歌词识别能力 [2] 开源、部署与商业化 - 公司正式开源Fun-CosyVoice3(0.5B)模型，支持本地部署和二次开发 [1] - 轻量化模型Fun-ASR-Nano现已开源，支持本地部署与定制化微调 [1] - Fun-ASR模型基于数千万小时真实语音数据训练，已在钉钉“AI听记”、视频会议等场景中大规模落地 [2]