行业现状与核心问题 - 当前生成式视频模型(如Wan、NVIDIA Cosmos)在视觉逼真度上已取得显著进展,能够生成高质量、逼真的动态场景[1][2] - 然而,现有模型普遍存在物理一致性问题,例如生成无中生有、不断蔓延的蜂蜜、斧头劈柴不同步等违背常识的画面[4][5][6] - 问题的本质在于,现有模型主要停留在“外观拟合”或“模仿世界”阶段,缺乏对物理世界的真正理解,无法建模物体为何运动、力如何传递等基本规律[3][6][7][8] - 现有方法存在两大根本瓶颈:一是缺乏显式的物理建模,物理规律在模型内部模糊、混合且不可分解;二是缺乏细粒度空间对齐,无法精准定位物理事件发生的位置[10] 技术突破:ProPhy框架 - 中山大学和MBZUAI联合提出ProPhy,这是一种全新的渐进式物理对齐框架,旨在使视频扩散模型首次具备“分层物理理解”与“空间物理对齐”能力[8] - 该框架的核心是两阶段物理专家机制(MoPE)[13] - 第一阶段:语义物理专家(SEB):负责从文本提示中解析物理语义,识别场景中可能涉及的物理现象类型(如燃烧、反射、流体运动等),并融合为统一的视频级物理先验,回答“涉及哪些物理规律?”[13] - 第二阶段:细粒度物理专家(REB):在token级别执行专家路由,为每个空间位置动态分配最合适的物理专家,实现空间各向异性的物理建模,解决“物理现象具体发生在画面的哪里?”[13][14] - 一个关键创新是向视觉语言模型(VLM,如Qwen2.5-VL)借用了“物理感知能力”,通过跨模型能力蒸馏,将VLM更精准的物理现象定位能力(通过attention map)迁移到生成模型中[16][17][18] 性能表现与实验结果 - 在权威物理常识评测基准VideoPhy2上,ProPhy展现出显著优势[20] - 在Wan2.1-1.3B基座模型上,物理常识(PC)与语义遵循(SA)指标同步提升,意味着在“物理正确性”与“语义一致性”两个维度上同时增强[20] - 在CogVideoX-5B上,联合指标(Joint)提升+19.7%,多项指标达到SOTA或次优水平,在整体与困难子集(HARD)上均表现稳定[21][22] - 在强调视频动态表现能力的VBench评测中,ProPhy显著提升了动态表现[23] - 在CogVideoX-5B模型上,动态程度(Dynamic Degree)指标从46.8大幅提升至72.0,综合质量评分(Quality Score)从76.8提升至81.0[23] - 在Wan2.1-1.3B模型上,动态程度指标从71.3提升至78.8,综合质量评分从77.3提升至79.0[23] - 视觉对比表明,ProPhy生成的视频在物理逻辑层面有彻底重构,交互更自然(如液体流向符合容器结构),解决了传统方法中现象触发错位、动量守恒违背等问题[24][25][28] 深层意义与未来展望 - ProPhy标志着视频生成模型从追求“视觉逼真”(形似)向遵循“世界规则”(物理一致)的本质跨越,生成的是受现实约束的动态世界[26][33] - 通过人为反转物理专家的路由权重,模型生成了违背常规物理规律的结果(如刚性车门像布料一样飘动),这强有力地证明了模型内部已形成结构化、可分解的物理知识表示,不同专家模块学习到了彼此区分的物理先验[29][32] - 这拓展了模型的能力边界,使其首次展现出向“可控物理世界模型”演化的潜力,未来可能带来一系列全新能力[29] - 可控物理属性编辑:例如让刚体变柔性,让流体变黏稠[29] - 物理规律迁移:将某种物理行为模式迁移到新的场景或对象上[30] - 物理参数调节:调整重力强度、碰撞弹性等隐含参数,实现“物理可编程生成”[31] - ProPhy推动了视频生成范式的转变,从依赖数据统计规律的视觉拟合,走向具备结构化物理建模能力的动态推演[33] - 展望未来,行业可能进一步引入连续动力学建模、微分方程约束,甚至将物理引擎与生成模型深度融合,以开发出更可解释、可控制的物理推演能力,最终迈向真正意义上的“可学习世界模拟器”[34]
生成视频总出物理bug?用VLM迁移+token级对齐,让燃烧在正确位置发生,碰撞遵循动量守恒丨CVPR 2026近满分接收
量子位·2026-03-19 15:09