OmniAudio - 财报，业绩电话会，研报，新闻 - Reportify

OmniAudio

搜索文档

ICML25 | 让耳朵「看见」方向！仅依靠360°全景视频，就能生成3D空间音频

量子位· 2025-05-14 16:55

空间音频技术发展 - 空间音频技术正成为提升沉浸式体验的关键，能够模拟真实听觉环境 [1] - 现有技术多基于固定视角视频，缺乏对360°全景视频空间信息的充分利用 [2] OmniAudio技术突破 - OmniAudio可直接从360°视频生成空间音频，为虚拟现实和沉浸式娱乐带来新可能性 [2] - 传统视频到音频生成技术缺乏方向信息，无法满足3D声音定位需求 [3][4] - 360V2SA任务旨在直接从360°视频生成FOA音频，FOA是一种标准3D空间音频格式，包含声音方向信息 [6][7] - FOA音频在头部旋转时能保持声音定位准确性，优于传统立体声 [8] Sphere360数据集 - Sphere360是首个大规模360V2SA数据集，包含103,000个真实世界视频片段，总时长288小时 [16] - 数据集涵盖288种音频事件，视频包含360°视觉内容并支持FOA音频 [16] - 采用半自动化pipeline构建，包括YouTube爬取、技术过滤、人工审核和清洗环节 [12][13][14] - 在规模和适用性上显著优于现有数据集 [17] OmniAudio技术实现 - 训练方法分为自监督的coarse-to-fine流匹配预训练和基于双分支视频表示的有监督微调 [18] - 预训练阶段先用普通立体声音频转换为"伪FOA"格式，再使用真实FOA精细训练 [20] - 两步法显著改善模型对空间特征的泛化能力与生成质量 [21] - 有监督微调阶段结合双分支视频编码器，提取全局和局部视角特征 [22] 成果与局限性 - OmniAudio在Sphere360-Bench和YT360-Test测试集上显著优于所有基线 [25] - 局限性包括处理复杂场景时事件类型识别存在挑战 [26] - 未来将探索多目标360°视频理解技术并持续扩充数据集 [26]

空间音频生成

Artificial Intelligence

空间音频生成

Artificial Intelligence