物理引擎
搜索文档
CVPR 2026 | 给扩散模型装上「物理引擎」: 北大彭宇新团队提出NS-Diff,使扩散模型学会流体与刚体力学
机器之心· 2026-03-19 09:25
行业技术突破 - 北京大学彭宇新教授团队提出了一种名为NS-Diff的物理引导视频生成强化学习框架,旨在解决当前AI视频生成模型(如Sora、Wan)普遍存在的物理失真问题,实现从“视觉真实”到“物理真实”的跨越 [4][5][7] - 该研究将复杂的纳维-斯托克斯(Navier-Stokes)方程等物理定律约束与强化学习相结合,通过物理动力学检测器和物理条件注入模块,引导AI在生成视频时遵循物理规律 [7] - 实验表明,NS-Diff在PhysVideoBench数据集上将视频中的运动急动度(jerk)误差降低了43%,流体发散度降低了33%,显著提升了生成视频的物理合理性 [7][23] 核心技术方案 - 公司设计了噪声鲁棒的物理动力学检测器,可在含噪的潜在帧中精准分析运动信息,有效区分视频中的刚体与流体区域 [8] - 公司开发了物理条件潜在注入模块,将速度场、形变梯度等关键物理信息编码,并通过交叉注意力机制注入到去噪器中,实现对生成过程的物理引导 [8][13] - 公司引入了强化学习优化模块,通过策略梯度对流体施加简化的纳维-斯托克斯约束,对刚体施加最小化急动度原则,确保动态过程的物理合理性 [8][15][16] - 公司采用了物理引导的自适应激活机制,根据去噪过程中的噪声水平动态调整物理约束的强度,确保训练的稳定性 [18][19] 实验性能表现 - 在PhysVideoBench数据集上,NS-Diff在所有评估指标上均实现了最佳性能,其NS-Diff-DiT 11B版本将急动度误差(△J)降至0.25,流体散度误差(Ldiv)降至2.4 [23] - 在UCF-101数据集上,NS-Diff DiT 11B版本将Fréchet Video Distance指标降低至85,帧一致性提升至0.95,表现出优异的时间连贯性 [24] - 在包含1000万个视频的WebVid-10M数据集上,NS-Diff在FVD和CLIPSIM指标上均优于对比模型,展示了其在开放世界场景中的良好泛化能力 [21][25] - 可视化对比显示,NS-Diff在处理篮球投篮、熔岩流、玻璃破碎等物理密集型场景时,能生成更真实、连贯的视频,显著减少违背物理规律的伪影 [26][28] 研究结论与意义 - 该研究成果表明,将经典物理约束深度融合于生成模型,是解决视频生成中物理失真问题的有效途径 [7][30] - NS-Diff框架通过物理引导,在显著降低物理运动误差的同时,确保了视觉生成质量,在多个基准数据集上超越了现有方法 [23][30]