NeurIPS 2025 Spotlight | 你刷到的视频是真的么？用物理规律拆穿Sora谎言

研究背景与核心问题 - 生成式AI（如Sora）的进步使得合成视频高度逼真，但也带来了深度伪造和虚假信息传播的风险 [7] - 现有视频检测方法多依赖表层伪影或数据驱动学习，在高质量生成视频面前泛化能力不足，难以应对未知生成范式 [7] - 核心困境在于如何超越表面特征，从自然视频的物理演化规律出发，构建具有普适性和稳健性的检测框架 [7][8] 技术创新与理论框架 - 提出归一化时空梯度统计量，通过概率流守恒原理量化视频空间概率梯度与时间密度变化的比值，揭示生成视频中的物理不一致性 [9][18][19] - 理论分析证明生成视频与真实视频在NSG统计量的最大均值差异距离大于真实视频之间的距离 [3][38] - 基于该统计量提出通用视频检测方法NSG-VD，对自然视频分布进行建模，不依赖特定生成模型 [3][28] 方法实现与技术细节 - 利用扩散模型的梯度学习能力构建高效NSG估计器，通过预训练的score网络近似计算视频帧的空间概率梯度 [21][22] - 基于亮度不变假设近似时间导数，结合帧间差分技术，无需显式光流估计即可求得NSG分布 [24][25] - 检测算法通过计算待测视频与真实视频参考集在NSG特征空间中的分布差异，利用最大均值差异作为检测指标 [28][31] 实验性能与验证结果 - 在包含10个不同生成模型的大型基准GenVideo上评估，NSG-VD在十类AI生成视频上的平均检测性能达到召回率88.02%、F1分数90.87% [40] - 对Sora等闭源生成模型的检测取得78.57%的召回率，相比DeMamba的48.21%提升超过30个百分点 [40] - 在数据不平衡场景下（仅使用1,000条生成数据训练），在Sora上的召回率仍达82.14%，远超DeMamba的33.93% [41][42] 技术优势与应用前景 - 物理驱动范式无需依赖特定生成模式的数据，在面对多样化生成内容时展现出强鲁棒性 [48] - 消融实验表明时空联合建模显著提升性能，仅使用空间概率梯度时召回率为87.99%，结合时间密度变化后提升至88.02% [44][45] - 该方法引领从“图像的真实”走向“物理的真实”的检测理念转变，关注视频是否遵守物理规律而非表面逼真度 [48]