生成视频总出物理bug？用VLM迁移+token级对齐，让燃烧在正确位置发生，碰撞遵循动量守恒丨CVPR 2026近满分接收

行业现状与核心问题 - 当前生成式视频模型（如Wan、NVIDIA Cosmos）在视觉逼真度上已取得显著进展，能够生成高质量、逼真的动态场景[1][2] - 然而，现有模型普遍存在物理一致性问题，例如生成无中生有、不断蔓延的蜂蜜、斧头劈柴不同步等违背常识的画面[4][5][6] - 问题的本质在于，现有模型主要停留在“外观拟合”或“模仿世界”阶段，缺乏对物理世界的真正理解，无法建模物体为何运动、力如何传递等基本规律[3][6][7][8] - 现有方法存在两大根本瓶颈：一是缺乏显式的物理建模，物理规律在模型内部模糊、混合且不可分解；二是缺乏细粒度空间对齐，无法精准定位物理事件发生的位置[10] 技术突破：ProPhy框架 - 中山大学和MBZUAI联合提出ProPhy，这是一种全新的渐进式物理对齐框架，旨在使视频扩散模型首次具备“分层物理理解”与“空间物理对齐”能力[8] - 该框架的核心是两阶段物理专家机制（MoPE）[13] - 第一阶段：语义物理专家（SEB）：负责从文本提示中解析物理语义，识别场景中可能涉及的物理现象类型（如燃烧、反射、流体运动等），并融合为统一的视频级物理先验，回答“涉及哪些物理规律？”[13] - 第二阶段：细粒度物理专家（REB）：在token级别执行专家路由，为每个空间位置动态分配最合适的物理专家，实现空间各向异性的物理建模，解决“物理现象具体发生在画面的哪里？”[13][14] - 一个关键创新是向视觉语言模型（VLM，如Qwen2.5-VL）借用了“物理感知能力”，通过跨模型能力蒸馏，将VLM更精准的物理现象定位能力（通过attention map）迁移到生成模型中[16][17][18] 性能表现与实验结果 - 在权威物理常识评测基准VideoPhy2上，ProPhy展现出显著优势[20] - 在Wan2.1-1.3B基座模型上，物理常识（PC）与语义遵循（SA）指标同步提升，意味着在“物理正确性”与“语义一致性”两个维度上同时增强[20] - 在CogVideoX-5B上，联合指标（Joint）提升+19.7%，多项指标达到SOTA或次优水平，在整体与困难子集（HARD）上均表现稳定[21][22] - 在强调视频动态表现能力的VBench评测中，ProPhy显著提升了动态表现[23] - 在CogVideoX-5B模型上，动态程度（Dynamic Degree）指标从46.8大幅提升至72.0，综合质量评分（Quality Score）从76.8提升至81.0[23] - 在Wan2.1-1.3B模型上，动态程度指标从71.3提升至78.8，综合质量评分从77.3提升至79.0[23] - 视觉对比表明，ProPhy生成的视频在物理逻辑层面有彻底重构，交互更自然（如液体流向符合容器结构），解决了传统方法中现象触发错位、动量守恒违背等问题[24][25][28] 深层意义与未来展望 - ProPhy标志着视频生成模型从追求“视觉逼真”（形似）向遵循“世界规则”（物理一致）的本质跨越，生成的是受现实约束的动态世界[26][33] - 通过人为反转物理专家的路由权重，模型生成了违背常规物理规律的结果（如刚性车门像布料一样飘动），这强有力地证明了模型内部已形成结构化、可分解的物理知识表示，不同专家模块学习到了彼此区分的物理先验[29][32] - 这拓展了模型的能力边界，使其首次展现出向“可控物理世界模型”演化的潜力，未来可能带来一系列全新能力[29] - 可控物理属性编辑：例如让刚体变柔性，让流体变黏稠[29] - 物理规律迁移：将某种物理行为模式迁移到新的场景或对象上[30] - 物理参数调节：调整重力强度、碰撞弹性等隐含参数，实现“物理可编程生成”[31] - ProPhy推动了视频生成范式的转变，从依赖数据统计规律的视觉拟合，走向具备结构化物理建模能力的动态推演[33] - 展望未来，行业可能进一步引入连续动力学建模、微分方程约束，甚至将物理引擎与生成模型深度融合，以开发出更可解释、可控制的物理推演能力，最终迈向真正意义上的“可学习世界模拟器”[34]