OmniAudio

搜索文档
ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频
量子位· 2025-05-14 16:55
空间音频技术发展 - 空间音频技术正成为提升沉浸式体验的关键,能够模拟真实听觉环境 [1] - 现有技术多基于固定视角视频,缺乏对360°全景视频空间信息的充分利用 [2] OmniAudio技术突破 - OmniAudio可直接从360°视频生成空间音频,为虚拟现实和沉浸式娱乐带来新可能性 [2] - 传统视频到音频生成技术缺乏方向信息,无法满足3D声音定位需求 [3][4] - 360V2SA任务旨在直接从360°视频生成FOA音频,FOA是一种标准3D空间音频格式,包含声音方向信息 [6][7] - FOA音频在头部旋转时能保持声音定位准确性,优于传统立体声 [8] Sphere360数据集 - Sphere360是首个大规模360V2SA数据集,包含103,000个真实世界视频片段,总时长288小时 [16] - 数据集涵盖288种音频事件,视频包含360°视觉内容并支持FOA音频 [16] - 采用半自动化pipeline构建,包括YouTube爬取、技术过滤、人工审核和清洗环节 [12][13][14] - 在规模和适用性上显著优于现有数据集 [17] OmniAudio技术实现 - 训练方法分为自监督的coarse-to-fine流匹配预训练和基于双分支视频表示的有监督微调 [18] - 预训练阶段先用普通立体声音频转换为"伪FOA"格式,再使用真实FOA精细训练 [20] - 两步法显著改善模型对空间特征的泛化能力与生成质量 [21] - 有监督微调阶段结合双分支视频编码器,提取全局和局部视角特征 [22] 成果与局限性 - OmniAudio在Sphere360-Bench和YT360-Test测试集上显著优于所有基线 [25] - 局限性包括处理复杂场景时事件类型识别存在挑战 [26] - 未来将探索多目标360°视频理解技术并持续扩充数据集 [26]