Wan
搜索文档
生成视频总出物理bug?用VLM迁移+token级对齐,让燃烧在正确位置发生,碰撞遵循动量守恒丨CVPR 2026近满分接收
量子位· 2026-03-19 15:09
行业现状与核心问题 - 当前生成式视频模型(如Wan、NVIDIA Cosmos)在视觉逼真度上已取得显著进展,能够生成高质量、逼真的动态场景[1][2] - 然而,现有模型普遍存在物理一致性问题,例如生成无中生有、不断蔓延的蜂蜜、斧头劈柴不同步等违背常识的画面[4][5][6] - 问题的本质在于,现有模型主要停留在“外观拟合”或“模仿世界”阶段,缺乏对物理世界的真正理解,无法建模物体为何运动、力如何传递等基本规律[3][6][7][8] - 现有方法存在两大根本瓶颈:一是缺乏显式的物理建模,物理规律在模型内部模糊、混合且不可分解;二是缺乏细粒度空间对齐,无法精准定位物理事件发生的位置[10] 技术突破:ProPhy框架 - 中山大学和MBZUAI联合提出ProPhy,这是一种全新的渐进式物理对齐框架,旨在使视频扩散模型首次具备“分层物理理解”与“空间物理对齐”能力[8] - 该框架的核心是两阶段物理专家机制(MoPE)[13] - **第一阶段:语义物理专家(SEB)**:负责从文本提示中解析物理语义,识别场景中可能涉及的物理现象类型(如燃烧、反射、流体运动等),并融合为统一的视频级物理先验,回答“涉及哪些物理规律?”[13] - **第二阶段:细粒度物理专家(REB)**:在token级别执行专家路由,为每个空间位置动态分配最合适的物理专家,实现空间各向异性的物理建模,解决“物理现象具体发生在画面的哪里?”[13][14] - 一个关键创新是向视觉语言模型(VLM,如Qwen2.5-VL)借用了“物理感知能力”,通过跨模型能力蒸馏,将VLM更精准的物理现象定位能力(通过attention map)迁移到生成模型中[16][17][18] 性能表现与实验结果 - 在权威物理常识评测基准VideoPhy2上,ProPhy展现出显著优势[20] - 在Wan2.1-1.3B基座模型上,物理常识(PC)与语义遵循(SA)指标同步提升,意味着在“物理正确性”与“语义一致性”两个维度上同时增强[20] - 在CogVideoX-5B上,联合指标(Joint)提升+19.7%,多项指标达到SOTA或次优水平,在整体与困难子集(HARD)上均表现稳定[21][22] - 在强调视频动态表现能力的VBench评测中,ProPhy显著提升了动态表现[23] - 在CogVideoX-5B模型上,动态程度(Dynamic Degree)指标从46.8大幅提升至72.0,综合质量评分(Quality Score)从76.8提升至81.0[23] - 在Wan2.1-1.3B模型上,动态程度指标从71.3提升至78.8,综合质量评分从77.3提升至79.0[23] - 视觉对比表明,ProPhy生成的视频在物理逻辑层面有彻底重构,交互更自然(如液体流向符合容器结构),解决了传统方法中现象触发错位、动量守恒违背等问题[24][25][28] 深层意义与未来展望 - ProPhy标志着视频生成模型从追求“视觉逼真”(形似)向遵循“世界规则”(物理一致)的本质跨越,生成的是受现实约束的动态世界[26][33] - 通过人为反转物理专家的路由权重,模型生成了违背常规物理规律的结果(如刚性车门像布料一样飘动),这强有力地证明了模型内部已形成结构化、可分解的物理知识表示,不同专家模块学习到了彼此区分的物理先验[29][32] - 这拓展了模型的能力边界,使其首次展现出向“可控物理世界模型”演化的潜力,未来可能带来一系列全新能力[29] - 可控物理属性编辑:例如让刚体变柔性,让流体变黏稠[29] - 物理规律迁移:将某种物理行为模式迁移到新的场景或对象上[30] - 物理参数调节:调整重力强度、碰撞弹性等隐含参数,实现“物理可编程生成”[31] - ProPhy推动了视频生成范式的转变,从依赖数据统计规律的视觉拟合,走向具备结构化物理建模能力的动态推演[33] - 展望未来,行业可能进一步引入连续动力学建模、微分方程约束,甚至将物理引擎与生成模型深度融合,以开发出更可解释、可控制的物理推演能力,最终迈向真正意义上的“可学习世界模拟器”[34]
CVPR 2026 | 给扩散模型装上「物理引擎」: 北大彭宇新团队提出NS-Diff,使扩散模型学会流体与刚体力学
机器之心· 2026-03-19 09:25
行业技术突破 - 北京大学彭宇新教授团队提出了一种名为NS-Diff的物理引导视频生成强化学习框架,旨在解决当前AI视频生成模型(如Sora、Wan)普遍存在的物理失真问题,实现从“视觉真实”到“物理真实”的跨越 [4][5][7] - 该研究将复杂的纳维-斯托克斯(Navier-Stokes)方程等物理定律约束与强化学习相结合,通过物理动力学检测器和物理条件注入模块,引导AI在生成视频时遵循物理规律 [7] - 实验表明,NS-Diff在PhysVideoBench数据集上将视频中的运动急动度(jerk)误差降低了43%,流体发散度降低了33%,显著提升了生成视频的物理合理性 [7][23] 核心技术方案 - 公司设计了噪声鲁棒的物理动力学检测器,可在含噪的潜在帧中精准分析运动信息,有效区分视频中的刚体与流体区域 [8] - 公司开发了物理条件潜在注入模块,将速度场、形变梯度等关键物理信息编码,并通过交叉注意力机制注入到去噪器中,实现对生成过程的物理引导 [8][13] - 公司引入了强化学习优化模块,通过策略梯度对流体施加简化的纳维-斯托克斯约束,对刚体施加最小化急动度原则,确保动态过程的物理合理性 [8][15][16] - 公司采用了物理引导的自适应激活机制,根据去噪过程中的噪声水平动态调整物理约束的强度,确保训练的稳定性 [18][19] 实验性能表现 - 在PhysVideoBench数据集上,NS-Diff在所有评估指标上均实现了最佳性能,其NS-Diff-DiT 11B版本将急动度误差(△J)降至0.25,流体散度误差(Ldiv)降至2.4 [23] - 在UCF-101数据集上,NS-Diff DiT 11B版本将Fréchet Video Distance指标降低至85,帧一致性提升至0.95,表现出优异的时间连贯性 [24] - 在包含1000万个视频的WebVid-10M数据集上,NS-Diff在FVD和CLIPSIM指标上均优于对比模型,展示了其在开放世界场景中的良好泛化能力 [21][25] - 可视化对比显示,NS-Diff在处理篮球投篮、熔岩流、玻璃破碎等物理密集型场景时,能生成更真实、连贯的视频,显著减少违背物理规律的伪影 [26][28] 研究结论与意义 - 该研究成果表明,将经典物理约束深度融合于生成模型,是解决视频生成中物理失真问题的有效途径 [7][30] - NS-Diff框架通过物理引导,在显著降低物理运动误差的同时,确保了视觉生成质量,在多个基准数据集上超越了现有方法 [23][30]
仅凭"动作剪影",打通视频生成与机器人世界模型!BridgeV2W让机器人学会"预演未来"
机器之心· 2026-02-21 10:57
行业技术背景与核心挑战 - 赋予机器人“预演未来”的能力是具身智能发展的核心方向,即构建“具身世界模型”,让机器人在行动前能先在“脑海”中模拟动作后果 [3] - 当前技术面临三大核心挑战:1) 动作与画面“语言不通”,机器人使用关节角度等坐标数值,而视频生成模型处理像素,两者缺乏空间对齐的“硬连接” [6];2) 视角鲁棒性差,相机视角一旦变化,预测质量会骤降 [6];3) 通用性不足,不同机器人结构(如单臂、双臂)往往需要定制化模型,难以构建统一的世界模型 [7] 核心技术创新:BridgeV2W与具身掩码 - 中科第五纪与中科院自动化所团队提出的BridgeV2W,其核心创新是“具身掩码”,这是一种将机器人动作序列实时渲染为图像上二值“动作剪影”的方法,从而将坐标空间的动作无缝映射到像素空间 [8][9] - 该设计一举破解三大难题:1) 动作-像素对齐:掩码是像素级信号,与视频模型输入完全匹配 [15];2) 视角自适应:掩码随相机视角动态生成,动作与画面始终对齐,天然泛化到新视角 [15];3) 跨具身通用:只需提供不同机器人的URDF模型,即可用同一框架生成掩码,无需修改模型结构 [15] - 技术实现上,BridgeV2W采用类似ControlNet的旁路注入方式,将掩码作为条件信号融入预训练视频生成模型,并引入光流驱动的运动损失,引导模型聚焦于任务相关的动态区域 [10] 实验验证与性能表现 - **在DROID数据集(大规模单臂操作)上的表现**:BridgeV2W在PSNR、SSIM、LPIPS、FVD等核心指标上超越现有方法(SOTA)[13]。在“未见视角”测试中,BridgeV2W的PSNR为20.87,SSIM为0.833,LPIPS为0.127,FVD为191.3,均优于对比方法,展现了出色的视角鲁棒性 [14]。在“未见场景”测试中,其PSNR为19.73,SSIM为0.717,FVD为362.1,同样领先 [14] - **在AgiBot-G1数据集(双臂人形机器人)上的表现**:关键结果是,无需修改模型架构,仅替换URDF并重新渲染掩码,BridgeV2W就能无缝适配该完全不同的平台,并取得媲美单臂机器人的预测质量,这是迈向通用具身世界模型的重要一步 [17] - **下游任务应用价值**:BridgeV2W不仅生成视频,还能用于策略评估(在模型中“试跑”策略以降低真实试错成本)和目标图像操作规划(从视觉目标搜索出可行动作序列),验证了其实用性 [20] 数据利用与可扩展性优势 - BridgeV2W能够利用海量无标注的人类视频数据(如Ego4D FHO数据集)进行训练,仅需使用SAM等模型提取的手部掩码,而无需精确的URDF或相机标定信息 [22] - 实验数据显示,混合使用机器人数据与人类视频数据能取得优异效果:例如,“70% G1 seg + 30% G1 calc + Ego4D”混合数据训练的模型,PSNR达到24.58,SSIM为0.863,FVD低至118.5 [22] - 这揭示了一条关键的技术路线:训练时依靠“野生”视频扩大数据规模,部署时依靠轻量几何信息保证控制精度,实现了可扩展性与准确性的兼得 [24] 行业影响与发展前景 - BridgeV2W揭示的技术路线“视频生成模型 + 具身掩码 = 可扩展的机器人世界模型”具有三大关键优势:1) 启动数据飞轮,互联网视频规模远超机器人数据,使利用人类视频成为可能 [25];2) 自动继承技术红利,其架构能自然受益于Sora等底层视频生成模型的升级 [25];3) 成为通用具身智能的坚实基石,其展现的跨平台、跨场景、跨视角泛化能力是重要里程碑 [25] - 该工作为世界模型的规模化训练开辟了新路径,训练时无需URDF或相机标定,可直接利用海量无标注人类视频 [27] - 展望未来,随着视频生成模型参数规模从十亿迈向千亿,训练数据从数千小时机器人视频扩展到百万小时人类视频,以及具身掩码应用延伸至全身人形乃至多机协作,机器人的“预演能力”有望实现巨大飞跃 [28]
A16Z最新洞察:视频模型从狂飙到分化,产品化是下一个机会
36氪· 2025-10-28 08:18
行业阶段转变 - 视频生成模型的发展节奏发生变化,从过去每周都有新模型刷新基准成绩的狂飙阶段,进入进步放缓的“产品时代”[1] - 模型性能的进步不再主要体现在参数或基准分数上,而是体现在多样性和专业化上,没有哪一个模型能“通吃全场”[2] - 更大的机会从模型本身转向“围绕模型”的产品构建,能简化创作流程、抽象出复杂操作的工具正变得比模型本体更有价值[2] 模型技术现状 - 大多数主流模型已能生成10–15秒带同步音轨的视频,效果相当惊人但不再令人惊讶,在“真实感”上的突飞猛进已使生成视频几乎和现实看不出差别[1][6] - 所谓“最强模型”的概念在视频领域可能根本不存在,上个月发布的Sora 2在LMarena等测试中甚至不如Veo 3,表现不升反降[4] - 行业可能看到更多风格化、专业化的模型出现,每个模型不再追求通用而是各有特长,视频生成进入“百花齐放”的新阶段[7] 主要模型专业化分工 - Veo 3最擅长物理细节、复杂动作,音画同步也做得最好,缺乏幽默感但动作、镜头、音画同步更精确,适合内容创作者、影视工作者[11] - Sora 2可以根据一句话生成有趣的多镜头视频,更像是一位“故事导演”,适合普通用户和meme创作者,但在物理表现、音视频同步方面不太稳定[11] - 其他专业化模型包括:Wan作为开源模型支持很多风格化插件适合定制风格,Grok速度快成本低特别适合动画内容,Seedance Pro可以一次生成多镜头结构,Hedra在长时间对话类视频的表现最稳[11] 产品化与工作流工具 - 当前模型能力已经很强,但对应的产品进度依然有很多“追赶空间”,需要更好的一体化产品来简化整个创作过程[13] - 许多创作者正在手动拼接多个模型的功能来完成本可自动做到的事情,如保持角色一致、延续镜头画面、控制运动轨迹等,显示产品体验和创作效率之间存在巨大断层[14] - 行业开始出现解决这些问题的工具,例如Runway发布了一套工具让用户修改镜头角度、生成下一个镜头等,OpenAI的Sora Storyboard支持更细致控制每一帧动作,谷歌Veo 3.1围绕音频和视觉控制做了功能增强[15] 未来发展方向 - 未来会看到越来越多“小而美”的模型,专门为某个行业或某种场景优化,如室内设计、营销、动画制作等[16] - 需要更强大的“创意工具包”来打通各种模态,让视频、配音、音乐等元素的生成与编辑更顺畅,形成一整套真正闭环的AI视频工作流[16] - 这类似于大语言模型的发展路径,即便模型性能不再突飞猛进,围绕它构建实用产品的空间依然非常大[15]
被高估的易中天
搜狐财经· 2025-10-15 09:18
AI视频大模型竞争格局 - Sora2发布即可用,但并未与国产视频大模型(如字节即梦、快手可灵、阿里Wan)形成代差式领先,部分细节甚至不如国产模型[2] - 预测国产视频大模型将在很短时间内对齐Sora2的能力,其中阿里Wan走开源路线,生态建设迅速[2] - Google在Sora2发布后一天推出Veo3.1,在电影级画质视频制作方面优势更大,凭借其强大的基础设施整合能力,未来可能超越OpenAI[2] - AI硬件发展路线不确定性大,OpenAI与英伟达一统天下的模式面临挑战,阿里、谷歌等公司使用自研AI芯片[3] 新易盛2025年上半年财务表现 - 公司实现营业收入104.37亿元,同比增长282.64%[5] - 归属于上市公司股东的净利润为39.42亿元,同比增长355.68%[5] - 基本每股收益为3.97元,同比增长356.32%[5] - 第二季度单季营收63.85亿元,环比增长57.5%,净利润23.7亿元,环比增长50.7%[7] - 业绩爆发式增长主要得益于全球AI算力投资热潮对高速光模块的旺盛需求[5] 新易盛业务转型与市场地位 - 公司从传统光模块供应商转型为AI算力基础设施核心供应商,业务结构发生根本性转变[7] - 4.25G以上高速光模块产品收入占比高达98.91%,传统低速率产品仅占0.87%[9] - 境外收入达985.26亿元,占主营业务收入94.64%,体现全球化战略成功[10] - 公司成功推出基于单波200G光器件的800G/1.6T光模块产品,涵盖VCSEL/EML、硅光、薄膜铌酸锂等多种技术解决方案[8] 行业需求与市场前景 - 亚马逊、微软、谷歌、Meta等北美四大云厂商2025年资本开支预计突破3200亿美元,同比增长30%,主要用于AI数据中心建设[7] - LightCounting预测2025年以太网光模块市场将增长50%,800G市场规模将超过400G,渗透率从25%提升至50%[7] - 800G已成为AI集群标配,预计2025年全球800G需求达1990万只,1.6T需求从200万只调整至100万只[8] 客户结构分析 - 应收账款前五大客户占比72.74%,主要为亚马逊(31.74%)、微软(31.7%)、Meta(18.2%)等国际云巨头[11] - 字节跳动成为国内最大客户,阿里云2025年800G光模块招标量预计达500万只,新易盛获得25%份额[11] - 腾讯份额提升至30%以上,通过拓展国内AI算力客户降低对单一市场的依赖[11][13] - 客户结构优化为公司提供更稳定的增长动力,并与英伟达等AI芯片厂商合作强化竞争力[13] 存货与应收账款风险 - 存货余额59.44亿元,较上年末增长43.86%[14] - 存货跌价损失1.63亿元,同比大幅增长838.72%,存货跌价准备高达5.04亿元[14] - 应收账款50.17亿元,较上年末增长97.59%,99.97%的应收账款账龄在一年以内[15] - 应收账款周转天数为65天,存在一定的坏账风险[15] 技术迭代与行业竞争风险 - CPO(共封装光学)技术可能在2027年后主导Scale-up网络,对传统可插拔光模块构成替代威胁[14][16] - LightCounting预测2025年光模块价格将以每年18%的幅度下滑,800G光模块价格已从2024年的1.2万美元/只降至2025年Q1的8500美元/只[14][18] - 中际旭创已实现硅光模块量产,1.6T产品市占率超35%,而新易盛CPO布局尚处样品阶段[17] - 新易盛研发投入为3.34亿元,低于中际旭创的5.2亿元,在CPO等前沿技术领域的布局相对滞后[18]
CVPR 2025 | SketchVideo让手绘动起来,视频生成进入线稿时代
机器之心· 2025-05-17 14:00
生成式AI视频技术发展 - 生成式AI在文本和图像领域已成熟,视频生成成为AIGC重要研究方向,应用于影视制作、短视频合成等领域[1] - 现有商用/开源模型(如Sora、可灵、CogVideo)依赖文本/图像输入,但存在几何细节控制不足、运动信息难以精确调节等局限性[7][9] - 视频局部二次编辑需解决空间与时序一致性难题,当前方法多聚焦整体风格变化而非局部几何编辑[9][11] SketchVideo技术创新 - 提出基于线稿的可控视频生成/编辑方法,仅需1-2帧关键帧线稿即可生成时序一致的动态视频,支持局部区域修改[1][12] - 采用跳跃式残差控制结构:将条件模块以固定间隔嵌入预训练模型(CogVideo-2B),参数开销减少50%以上[11][12] - 引入帧间注意力机制,通过稀疏传播关键帧控制特征实现全视频一致性[12] - 视频编辑新增视频嵌入模块,结合局部融合策略保留非编辑区域内容[12] 应用效果展示 - 单帧线稿+文本输入可生成高质量视频,指定时间点与线稿匹配度达90%以上[15][17] - 双帧线稿输入可控制物体运动轨迹,实现定制化生成[17][19] - 真实视频编辑支持局部区域修改(如树枝移动、头部旋转),新内容与原始视频运动同步[19][21] 行业影响 - 突破专业视频制作门槛,用户通过简单线稿即可创作动态内容,效率提升约70%[23] - 技术已被CVPR 2025收录,相关代码及Demo在GitHub和YouTube开源[8][23] - 相比传统文本驱动方法,几何控制精度提升40%,填补了视频生成领域可控性空白[9][12]