Workflow
文本与语音结合模型
icon
搜索文档
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
量子位· 2025-07-23 14:36
核心观点 - 李沐团队研发的Higgs Audio V2模型实现了文本与语音的多模态融合,通过1000万小时语音数据训练,具备生成多语言对话、自动韵律调整、声纹克隆等能力,并在多个基准测试中领先[3][4][19][20] - 模型采用"system-user-assistant"框架统一处理语音和文本任务,通过离散化音频分词器实现高效语义映射,训练中采用双模型互学习策略提升性能[7][8][10][16] - 技术方案突破传统TTS限制,支持实时情绪交互和复杂场景推理,在EmergentTTS-Eval基准上对GPT-4o-mini-tts的胜率高出75.7%(情绪类)和55.7%(问题类)[19] - 模型已开源并提供在线试玩,适用于鬼畜视频制作、虚拟主播等场景,需配合场景语音数据优化声纹克隆效果[23][25] 技术架构 - 数据层:清洗后使用1000万小时授权语音数据,剔除90%低质量样本,避免使用YouTube/B站等版权受限平台[4][14][15] - 编码层:开发统一离散化音频分词器,以每秒25帧速度运行,压缩比达60MB→0.16MB/小时,同时保留语义和声学特征[10][11] - 训练层:构建AudioVerse辅助模型实现自动标注,通过双模型对抗训练提升多模态能力,规避OpenAI/谷歌模型输出限制[16] - 应用层:支持文本转语音、歌曲创作配乐、场景人物分析(性别/年龄/情绪)、环境音识别等18项复杂任务[17][18] 性能表现 - 基准测试:在Seed-TTS Eval和情感语音数据集(ESD)保持SOTA,EmergentTTS-Eval六维评估框架中情绪识别准确率提升75.7%[19][20] - 延迟控制:实现200ms内实时语音交互,支持对话过程中的动态情绪表达,突破机械问答限制[19] - 多语言支持:可生成中英等语言的自然对话,自动适配不同说话人的韵律特征[3] 商业化进展 - 开源策略:GitHub发布完整模型代码,提供Docker镜像简化部署,包含Pytorch GPU版本和Hugging Face接口[23][24] - 产品矩阵:4月推出Higgs Audio Understanding/Generation工具,5月发布EmergentTTS-Eval评估基准,形成完整技术闭环[30] - 公司背景:Boson AI由李沐创立,基于Llama 3开发的Higgs-Llama-3-70B模型在角色扮演和推理任务表现优异,获98.1万B站粉丝关注[26][27][28]