SAM Audio
搜索文档
腾讯研究院AI速递 20251218
腾讯研究院· 2025-12-18 00:01
行业核心动态:AI模型与产品密集迭代升级 - OpenAI推出全新图像生成模型ChatGPT Images,图像生成速度提升4倍,API价格比前代降低20% [1] - Meta开源音频分割模型SAM Audio,支持文本、视觉和时间跨度提示,在超过1亿条视频上训练,运行速度快于实时处理 [2] - 小米开源大模型MiMo-V2-Flash,总参数3090亿,活跃参数150亿,在SWE-bench Verified得分73.4%超越所有开源模型 [3] - 腾讯混元世界模型1.5开源,支持创建实时交互3D世界,以24FPS速度生成720P高清视频 [4] - 谷歌在Gemini中深度整合Opal工作流,推出Super Gems功能和新工作流构建器 [7] - OpenAI发布专家级科学能力评估基准FrontierScience,包含700余道题目,GPT-5.2在奥赛赛道得分77% [8] 模型性能与技术创新 - ChatGPT Images支持添加、删减、组合、融合等多种编辑,文本渲染能力增强,内置数十种预设滤镜和提示词 [1] - SAM Audio核心引擎PE-AV基于Perception Encoder扩展,实现多模态融合,在多种音频分离任务上达到SOTA水平 [2] - MiMo-V2-Flash采用5比1混合滑动窗口注意力机制,使KV缓存减少近6倍,轻量级多Token预测使推理速度提升2-2.6倍 [3] - 腾讯混元世界模型1.5核心创新包括重构记忆机制实现分钟级几何一致性、Context Forcing蒸馏方案和基于3D的自回归扩散模型强化学习 [4] - Vidu Agent具备分镜级可控力,能保持产品人物场景在15-30秒视频中的一致性,并支持精细化编辑 [5][6] - FrontierScience基准的研究赛道采用基于量规的10分制评估,关注推理步骤正确性,揭示模型存在推理逻辑错误等问题 [8] 商业化与成本策略 - ChatGPT Images功能向所有ChatGPT用户推出,API以GPT Image 1.5形式提供 [1] - MiMo-V2-Flash后训练采用多教师在线策略蒸馏,仅需传统方法1/50算力达到教师性能峰值,API限时免费开放,成本为每百万token输入0.1美元输出0.3美元 [3] - Vidu Agent首推多模态Agent API,为企业提供端到端交付结果,支持上传爆款视频和产品图批量产出同类高质量视频 [5][6] - 谷歌Gemini的新工作流可直接生成可分享链接并公开发布,不再依赖Google Drive权限设置 [7] 行业战略与研发投入 - 原DeepSeek成员罗福莉加入小米并发表演讲,强调AI进化的下个起点是能与物理世界交互的模型,认为真正护城河是科学研究文化与将未知问题转化为可用产品的能力 [9] - 罗福莉提出开源是实现AGI普惠化、确保人类智慧共同进化的唯一路径 [9] - 小米未来五年研发投入预计超2000亿元,2026年预计投入约400亿元 [9]
分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音
机器之心· 2025-12-17 17:42
核心观点 - Meta发布并开源了名为SAM Audio的统一多模态提示音频分割模型,该模型能够通过文本、视觉或时间片段提示,从复杂音频混合中分离出任意声音,彻底改变音频处理方式 [1] - 该模型在多项音频分离任务上实现了业界领先的性能,运行速度快于实时处理,并首次支持多种交互方式,为用户提供了更精确、直观的控制能力 [9][35][40] - Meta同时发布了支撑SAM Audio的核心引擎PE-AV、首个真实环境音频分离基准SAM Audio-Bench以及首个用于音频分离的自动评测模型SAM Audio Judge,旨在推动音频AI领域的发展 [10][26][33] 模型与技术架构 - **SAM Audio模型**:采用基于流匹配扩散Transformer的生成式建模框架,接收混合音频及多模态提示,生成目标音轨与剩余音轨 [12] - **核心技术引擎PE-AV**:基于Meta此前开源的Perception Encoder模型构建,通过将视频帧与音频在精确时间点上对齐,提供稳健且语义丰富的特征表示,是支撑SAM Audio效果的核心 [2][20][22] - **数据引擎与训练**:构建了一套完整的数据引擎,融合先进的音频混合技术、自动化多模态提示生成及伪标签流程,生成贴近真实场景的训练数据 [14] - **训练数据规模**:模型基于多样化的数据集训练,内容横跨语音、音乐及各类通用声音事件;PE-AV基于超过1亿条视频进行训练 [15][25] 功能与应用场景 - **三种分割方式**: - 文本提示:输入如“狗叫声”等描述以提取特定声音 [16] - 视觉提示:在视频中点击发声的人或物体以分离对应音频 [16] - 时间跨度提示:业内首创,允许用户标记目标声音出现的时间片段以实现更精确分割 [4][16] - **应用场景**:包括音频清理、背景噪声移除、从乐队演出录像中分离特定乐器声、滤除视频中的交通噪声、去除播客中的持续噪音等,旨在构建下一代创意媒体工具 [4][5] 性能与评估 - **性能表现**:在通用音频分离及语音、音乐、通用声音等所有音频类别上,性能均显著领先于以往工作,并达到了最佳领域专用模型的水平 [35][36] - **处理速度**:运行速度快于实时处理,实时因子约为0.7,在5亿到30亿参数规模下都能高效进行大规模音频处理 [40] - **多模态提示优势**:混合模态提示(如文本结合时间提示)的效果优于单一模态方法 [39] - **评估体系**: - **SAM Audio Judge**:首个用于音频分离的自动评测模型,提供无需参考音频的客观评测方式,从9个感知维度(如召回率、精确度、整体质量)评估分割质量 [10][26] - **SAM Audio-Bench**:首个全面的真实环境音频分离基准,覆盖语音、音乐、通用音效及所有提示类型,并率先引入无参考评估方式 [10][30][33] 发布与生态建设 - **开源与平台**:公司向社区开源了SAM Audio和PE-AV模型,发布了相关研究论文和代码,并将所有成果整合进全新的“Segment Anything Playground”平台供公众体验 [5][7][17][23] - **行业合作**:宣布与美国最大助听器制造商Starkey以及创业加速器2gether-International建立合作,探索模型在推动无障碍技术方面的应用 [43] - **行业意义**:此次发布被视为迈向更易用、更具创造力、更加包容的AI的一步,为理解复杂声学环境和响应多模态自然提示提供了新的可能性 [43] 当前局限性 - 目前不支持以音频本身作为提示 [44] - 无法在没有任何提示的情况下进行完整的音频分离 [44] - 在高度相似的音频事件(如从合唱中分离单一歌手或从交响乐中分离单一乐器)之间进行分离仍具挑战性 [44]