Voice Synthesis
搜索文档
小米AI语音新框架:人人都能当声音导演
量子位· 2026-04-08 12:06
文章核心观点 - 小米大模型应用团队推出了两大真实世界音频生成框架,旨在解决传统语音合成技术在真实感、场景融合和长内容生成方面的局限 [3] - Xiaomi Any2Speech 模型的核心突破在于让AI理解声学空间与叙事逻辑,具备“导戏”能力,支持生成高质量、富有故事性的长音频内容 [7][20] - Midasheng-audio-generate 模型强调用一句话生成包含人声、场景音效、音乐等的“全场景声音”,实现声画同频的沉浸式体验 [22] - 两大模型通过创新的技术架构(如GST标注体系、Labeling over Filtering、双路拆分等),显著提升了音频生成的真实感、可控性和易用性,有望降低专业音频创作门槛 [11][14][17][21] 传统语音合成的局限与行业痛点 - 传统TTS技术评判标准单一,仅关注能否清晰念字,导致生成的声音生硬、缺乏口语表达效果 [2][6] - 在实际应用场景(如有声书、播客)中,面临合成音频生硬、口语表达效果差、配音流程繁琐、合成过程易出现bug等问题 [2][3] - 传统方法生成的声音与背景音割裂,像在空荡的录音棚里,缺乏场景感 [10] - 传统TTS训练时需刻意过滤嘈杂数据(如多人重叠声、质量参差的素材),可能限制了模型对复杂真实场景的泛化能力 [13] Xiaomi Any2Speech 模型的核心能力与突破 - 模型核心突破在于让AI学会理解声学空间与叙事逻辑,具备“导戏”能力,而不仅仅是念字 [7] - 支持多人分角色对话,可完美呈现播客、相声、武侠广播剧等场景的沉浸式多人对白 [10] - 实现了背景环境与人声的统一建模,使生成的声音自带场景感,不再孤立 [10] - 支持多种格式文档输入,单次推理可生成最长约10分钟的连贯音频 [10] - 能够理解剧本结构,使AI的表演有情绪递进和故事性 [11] - 采用了创新的「Global-Sentence-Token(GST)」三层标注体系,从全局场景、局部语句到细节发音进行分层控制,让AI对声音的理解更到位 [11][12] - 采用Labeling over Filtering技术思路,保留并利用传统TTS摒弃的嘈杂数据,通过GST标注将其转化为训练燃料,使模型能从中泛化出各种特色声学效果 [14] - 基于CoT(思维链)进行深度推理,先理解场景氛围与情绪走向,再生成音频,使结果更贴合场景、更有感染力 [15] - 架构上采用双路拆分+维度Dropout思路,将传统TTS黑盒过程拆解为可追溯、可干预的步骤,提升了创作过程的可控性 [17][18] Midasheng-audio-generate 模型的核心能力与突破 - 模型强调用一句话实现包含人声、场景音效、音乐等的“全场景声音”重建还原,创造声画同频的沉浸式音频世界 [22] - 采用双路生成架构:“Instruct路”接收用户硬约束;“Think路”让模型自主推理表达规划,并在训练中使用维度Dropout以增强鲁棒性 [23] - 采用双阶段生成:先逐句规划表达蓝图,再以蓝图为指导生成音频,使过程可追溯、可干预 [23] - 基于Midasheng tokenizer技术,以Flow Matching为主体框架接收文本指令,驱动全能编码器直接合成复杂的混合音频 [25] - 仅需自然语言描述,即可生成完整音频,无需后期拼接,实现“一句话造世界” [30] - 能生成符合场景特点的语音,例如根据“火车上”或“森林中”的对话场景,自动适配相应的混响效果 [30] - 提供跨平台零门槛使用方式,通过Hugging Face、OpenClaw Skill、Web Demo等平台开放,无需本地部署即可生成长音频 [30] - 采用结构化多视角标注,将音频场景解耦为五个独立标注字段,实现对语音、音乐、音效的细粒度分层控制 [31] - 采用统一的非VAE生成方式,使用Midasheng tokenizer进行语义-声学统一建模,突破了生成质量的天花板 [31] - 架构兼容大型语言模型与智能体工作流,能够自动从高层场景描述中填充各标注字段,简化了从描述到复杂音频的生成流程 [31] 新语音范式的应用场景与影响 - 新范式极大改变了语音合成的应用场景与使用思路,例如在脱口秀场景中,模型能根据上下文语意自然推断并生成观众的起哄声与共鸣笑声 [27][28][29] - 在武侠广播剧场景中,能自然融合人物对白、环境音效(如江湖夜雨、刀光剑影),营造沉浸式世界 [29] - 模型通过语速、音量、混响的协同变化,可直接塑造角色压迫感与空间紧张感,省去传统配音中单独配乐的环节 [32] - 语气词、拖音、断句节奏等细节成为传递人物气质的重要介质,实现声音侧写 [32] - 所有场景共享同一个自然语言指令接口,用户用一句话描述想要的效果即可,无需切换模型或流程 [32] - 当模型能够基于语义自动生成情绪、环境与互动反馈,声音合成逐渐成为内容生产的一部分,甚至是内容本身 [32] - 未来的语音生成可能不再需要复杂的多轨配音流程和精细的人工标注,而是通过自然语言直接驱动完整声音场景的生成 [32]