Workflow
语音处理
icon
搜索文档
“AI大神”李沐终于开源新模型,爆肝6个月,上线迅速斩获3.6k stars!
AI前线· 2025-07-25 13:36
技术突破与创新 - 开源音频基础模型Higgs Audio v2基于Llama-3.2-3B架构,预训练数据包含1000万小时音频及丰富文本数据,Github获3.6k stars [1] - 模型创新性地将语音数据融入文本大语言模型训练,实现"能听会说"的多模态能力,而非单独训练语音模型 [2][5] - 在EmergentTTS-Eval测评中,情绪和提问类别分别以75.7%和55.7%胜率超越gpt-4o-mini-tts,并在Seed-TTS Eval等基准测试中达业界领先 [3] - 采用语义优先的tokenizer策略,实现375倍音频压缩率(1小时语音压缩至0.16MB),保留核心语义信息 [15][17] - 关键技术创新包括:自动化标注流程处理1000万小时AudioVerse数据、统一音频分词器、DualFFN架构(保留91%原始训练速度) [26] 模型架构与训练 - 沿用文本模型的"system-user-assistant"交互框架,通过多轮指令控制实现复杂语音任务(如带情感的角色对话) [8][11] - 语音信号通过离散化处理:每100毫秒片段匹配45个声学模板,1秒音频用24个token表示(64k词表) [15] - 训练采用生成模型与理解模型协同进化策略,两者输入输出互逆形成闭环训练系统 [22] - 数据来源规避版权风险,采购合规数据或清洗公开数据(1亿小时原始素材筛选出1000万小时有效数据) [19] 应用场景拓展 - 支持多语种自然对话生成、语调适配、声音克隆哼唱、语音与背景音乐同步生成等复合功能 [6] - 突破传统TTS局限,实现带场景理解的情感语音合成(如根据角色性格生成吵架对话) [11] - 语音理解方面可分析说话者性别年龄、场景类型(室内/室外)、交互状态(教学/争吵)等上下文信息 [12] - 低延迟交互能力支持实时语音聊天,实现接近人类对话的流畅体验 [13] 行业影响 - 开创性验证"文本+语音"多模态统一建模路径,打破传统单任务语音模型局限 [10][13] - 演示大语言模型通过数据扩展(1000万小时音频)实现能力边界突破的scaling law应用 [13][19] - 技术路线具有可扩展性,相同框架可延伸至音乐生成、环境音分析等更广泛音频领域 [11][12]