Workflow
物理建模
icon
搜索文档
生成视频总出物理bug?用VLM迁移+token级对齐,让燃烧在正确位置发生,碰撞遵循动量守恒丨CVPR 2026近满分接收
量子位· 2026-03-19 15:09
行业现状与核心问题 - 当前生成式视频模型(如Wan、NVIDIA Cosmos)在视觉逼真度上已取得显著进展,能够生成高质量、逼真的动态场景[1][2] - 然而,现有模型普遍存在物理一致性问题,例如生成无中生有、不断蔓延的蜂蜜、斧头劈柴不同步等违背常识的画面[4][5][6] - 问题的本质在于,现有模型主要停留在“外观拟合”或“模仿世界”阶段,缺乏对物理世界的真正理解,无法建模物体为何运动、力如何传递等基本规律[3][6][7][8] - 现有方法存在两大根本瓶颈:一是缺乏显式的物理建模,物理规律在模型内部模糊、混合且不可分解;二是缺乏细粒度空间对齐,无法精准定位物理事件发生的位置[10] 技术突破:ProPhy框架 - 中山大学和MBZUAI联合提出ProPhy,这是一种全新的渐进式物理对齐框架,旨在使视频扩散模型首次具备“分层物理理解”与“空间物理对齐”能力[8] - 该框架的核心是两阶段物理专家机制(MoPE)[13] - **第一阶段:语义物理专家(SEB)**:负责从文本提示中解析物理语义,识别场景中可能涉及的物理现象类型(如燃烧、反射、流体运动等),并融合为统一的视频级物理先验,回答“涉及哪些物理规律?”[13] - **第二阶段:细粒度物理专家(REB)**:在token级别执行专家路由,为每个空间位置动态分配最合适的物理专家,实现空间各向异性的物理建模,解决“物理现象具体发生在画面的哪里?”[13][14] - 一个关键创新是向视觉语言模型(VLM,如Qwen2.5-VL)借用了“物理感知能力”,通过跨模型能力蒸馏,将VLM更精准的物理现象定位能力(通过attention map)迁移到生成模型中[16][17][18] 性能表现与实验结果 - 在权威物理常识评测基准VideoPhy2上,ProPhy展现出显著优势[20] - 在Wan2.1-1.3B基座模型上,物理常识(PC)与语义遵循(SA)指标同步提升,意味着在“物理正确性”与“语义一致性”两个维度上同时增强[20] - 在CogVideoX-5B上,联合指标(Joint)提升+19.7%,多项指标达到SOTA或次优水平,在整体与困难子集(HARD)上均表现稳定[21][22] - 在强调视频动态表现能力的VBench评测中,ProPhy显著提升了动态表现[23] - 在CogVideoX-5B模型上,动态程度(Dynamic Degree)指标从46.8大幅提升至72.0,综合质量评分(Quality Score)从76.8提升至81.0[23] - 在Wan2.1-1.3B模型上,动态程度指标从71.3提升至78.8,综合质量评分从77.3提升至79.0[23] - 视觉对比表明,ProPhy生成的视频在物理逻辑层面有彻底重构,交互更自然(如液体流向符合容器结构),解决了传统方法中现象触发错位、动量守恒违背等问题[24][25][28] 深层意义与未来展望 - ProPhy标志着视频生成模型从追求“视觉逼真”(形似)向遵循“世界规则”(物理一致)的本质跨越,生成的是受现实约束的动态世界[26][33] - 通过人为反转物理专家的路由权重,模型生成了违背常规物理规律的结果(如刚性车门像布料一样飘动),这强有力地证明了模型内部已形成结构化、可分解的物理知识表示,不同专家模块学习到了彼此区分的物理先验[29][32] - 这拓展了模型的能力边界,使其首次展现出向“可控物理世界模型”演化的潜力,未来可能带来一系列全新能力[29] - 可控物理属性编辑:例如让刚体变柔性,让流体变黏稠[29] - 物理规律迁移:将某种物理行为模式迁移到新的场景或对象上[30] - 物理参数调节:调整重力强度、碰撞弹性等隐含参数,实现“物理可编程生成”[31] - ProPhy推动了视频生成范式的转变,从依赖数据统计规律的视觉拟合,走向具备结构化物理建模能力的动态推演[33] - 展望未来,行业可能进一步引入连续动力学建模、微分方程约束,甚至将物理引擎与生成模型深度融合,以开发出更可解释、可控制的物理推演能力,最终迈向真正意义上的“可学习世界模拟器”[34]
VLA 模型的泛化能力超乎你的想象:换个新相机和视角推理也能轻松搞定!
具身智能之心· 2025-12-04 11:10
文章核心观点 - 视觉-语言-动作模型在面临新相机视角等视觉扰动时性能下降的核心原因是其空间建模组件存在对齐偏差,而非物理建模能力不足 [2][9] - 通过一种极轻量级的单次自适应框架,仅更新少量参数即可重新校准视觉表征,从而显著恢复模型的视角泛化能力,这揭示了预训练VLA模型中存在大量未被挖掘的鲁棒性潜力 [3][14] VLA模型的泛化性困境 - VLA模型是具身智能核心技术,能将视觉观测和语言指令转化为机器人动作序列,在训练数据中表现优异 [4] - 然而,当面临未见过的相机视角、光照变化等视觉扰动时,模型性能会急剧下降,这是其落地的关键瓶颈 [6] - 现有提升鲁棒性的方法主要分为两类:成本高昂的数据中心范式和对任务无关因素敏感的表示中心范式,且参数高效微调技术极少直接用于优化视觉模块 [7][8] 空间建模是VLA泛化的核心瓶颈 - 研究将VLA模型解耦为空间建模与物理建模两个独立组件,并指出性能退化的主因是空间建模失准 [9] - 空间建模负责从图像构建物体空间关系,视角变化会导致其输出的空间表示失真;物理建模负责高层推理和动作生成,其任务逻辑不受视角变化影响 [12][15] - 通过嵌入漂移分析验证:新视角的视觉token与训练视角的token在嵌入空间中存在严重域间隙,轻量级适配后能使其对齐,性能随之恢复 [13] 方法设计:轻量级单次适配框架 - 提出单次适配框架,仅对视觉模块进行轻量级调整,语言编码器和解码器保持固定 [16][17] - 特征token调制是一种极简机制,仅用两个可学习参数向量对视觉token进行全局仿射变换,引入4K可训练参数,能将Libero数据集的视角准确率从48.5%提升至87.1% [3][18] - 特征线性自适应在FTM基础上,对ViT编码器的线性层进行低秩更新,仅引入470万参数,在实验中实现了90.8%的平均成功率,达到甚至超越了全量LoRA微调的效果 [3][19] 实验验证与结果 - 实验在Libero-V基准上进行,该基准引入了相机视角变化、光照变化、背景纹理扰动和传感器噪声四种受控视觉扰动 [23][27] - 在新相机视角任务中,FLA取得了90.8%的平均成功率,超越了LoRA微调的90.3%;FTM以87.2%的成功率接近LoRA微调,且仅用4K参数 [24][26] - 在多种视觉扰动下,FLA的平均成功率达94.8%,与LoRA微调持平;FTM以90.5%的成功率远超Prompt学习的75.1% [30][31] - 参数效率极高:FTM仅用0.004M参数达到90.5%成功率;FLA用4.70M参数达到94.8%成功率,远低于LoRA微调所需的467M参数 [32] - 真实世界实验表明,通过单次FLA适配,模型能在新相机视角下成功完成所有操作任务,有效弥合仿真与现实的域间隙 [33] 方法优势与结论 - FLA/FTM方法聚焦视觉模块的轻量级适配,无需修改模型架构或重新训练,是更高效、更实用的解决方案 [20] - 该方法精准定位了模型泛化性的瓶颈,并提出了高效解决方案,证明了针对性、极小化的视觉自适应足以恢复模型的视角泛化能力 [3][34]