核心观点 - Meta发布并开源了名为SAM Audio的统一多模态提示音频分割模型,该模型能够通过文本、视觉或时间片段提示,从复杂音频混合中分离出任意声音,彻底改变音频处理方式 [1] - 该模型在多项音频分离任务上实现了业界领先的性能,运行速度快于实时处理,并首次支持多种交互方式,为用户提供了更精确、直观的控制能力 [9][35][40] - Meta同时发布了支撑SAM Audio的核心引擎PE-AV、首个真实环境音频分离基准SAM Audio-Bench以及首个用于音频分离的自动评测模型SAM Audio Judge,旨在推动音频AI领域的发展 [10][26][33] 模型与技术架构 - SAM Audio模型:采用基于流匹配扩散Transformer的生成式建模框架,接收混合音频及多模态提示,生成目标音轨与剩余音轨 [12] - 核心技术引擎PE-AV:基于Meta此前开源的Perception Encoder模型构建,通过将视频帧与音频在精确时间点上对齐,提供稳健且语义丰富的特征表示,是支撑SAM Audio效果的核心 [2][20][22] - 数据引擎与训练:构建了一套完整的数据引擎,融合先进的音频混合技术、自动化多模态提示生成及伪标签流程,生成贴近真实场景的训练数据 [14] - 训练数据规模:模型基于多样化的数据集训练,内容横跨语音、音乐及各类通用声音事件;PE-AV基于超过1亿条视频进行训练 [15][25] 功能与应用场景 - 三种分割方式: - 文本提示:输入如“狗叫声”等描述以提取特定声音 [16] - 视觉提示:在视频中点击发声的人或物体以分离对应音频 [16] - 时间跨度提示:业内首创,允许用户标记目标声音出现的时间片段以实现更精确分割 [4][16] - 应用场景:包括音频清理、背景噪声移除、从乐队演出录像中分离特定乐器声、滤除视频中的交通噪声、去除播客中的持续噪音等,旨在构建下一代创意媒体工具 [4][5] 性能与评估 - 性能表现:在通用音频分离及语音、音乐、通用声音等所有音频类别上,性能均显著领先于以往工作,并达到了最佳领域专用模型的水平 [35][36] - 处理速度:运行速度快于实时处理,实时因子约为0.7,在5亿到30亿参数规模下都能高效进行大规模音频处理 [40] - 多模态提示优势:混合模态提示(如文本结合时间提示)的效果优于单一模态方法 [39] - 评估体系: - SAM Audio Judge:首个用于音频分离的自动评测模型,提供无需参考音频的客观评测方式,从9个感知维度(如召回率、精确度、整体质量)评估分割质量 [10][26] - SAM Audio-Bench:首个全面的真实环境音频分离基准,覆盖语音、音乐、通用音效及所有提示类型,并率先引入无参考评估方式 [10][30][33] 发布与生态建设 - 开源与平台:公司向社区开源了SAM Audio和PE-AV模型,发布了相关研究论文和代码,并将所有成果整合进全新的“Segment Anything Playground”平台供公众体验 [5][7][17][23] - 行业合作:宣布与美国最大助听器制造商Starkey以及创业加速器2gether-International建立合作,探索模型在推动无障碍技术方面的应用 [43] - 行业意义:此次发布被视为迈向更易用、更具创造力、更加包容的AI的一步,为理解复杂声学环境和响应多模态自然提示提供了新的可能性 [43] 当前局限性 - 目前不支持以音频本身作为提示 [44] - 无法在没有任何提示的情况下进行完整的音频分离 [44] - 在高度相似的音频事件(如从合唱中分离单一歌手或从交响乐中分离单一乐器)之间进行分离仍具挑战性 [44]
分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音