Workflow
视频世界模型
icon
搜索文档
「视频世界模型」新突破:AI连续生成5分钟,画面也不崩
机器之心· 2025-12-31 17:31
视频世界模型的技术挑战与现状 - 当前AI生成视频的核心挑战在于如何让生成的视频不仅视觉逼真,更能长时间遵循物理世界的规律,实现结构、行为与物理规律的一致性[2] - 随着生成时长从几秒扩展到几分钟,现有模型普遍面临误差累积与语义漂移问题,导致长视频出现画面退化与逻辑崩坏[2] - 一个理想的视频世界模型应具备三项核心能力:全面可控性、长期视觉保真度以及长程上下文一致性[12] LongVie 2模型框架与核心创新 - 该模型由上海人工智能实验室联合多所高校提出,是一个能够生成长达5分钟高保真、可控视频的世界模型框架[2] - 其核心创新在于设计了一套三阶段递进式训练策略,系统性解决长视频生成的退化问题[8] - 三阶段训练包括:1) 稠密与稀疏多模态控制;2) 退化感知训练;3) 历史上下文建模,旨在从控制、稳定性到时间一致性层层强化模型能力[9][13][14] 三阶段训练策略详解 - **阶段一:多模态控制**:通过引入稠密信号(如深度图)与稀疏信号(如关键点轨迹),为模型提供稳定且可解释的世界约束,从源头提升长程可控性[9] - **阶段二:退化感知训练**:在训练阶段主动“制造困难”,通过VAE多次编解码模拟重建误差,以及加噪与去噪构造退化图像,使模型学会在不完美输入下保持稳定生成,显著增强长期视觉保真度[13][17] - **阶段三:历史上下文建模**:在生成过程中显式引入历史片段信息,并通过针对性损失函数约束相邻片段衔接,使跨片段过渡自然顺畅,有效缓解语义断裂与逻辑跳变[14] 模型效果与性能评估 - 与Go-With-The-Flow和Diffusion As Shader等方法对比,LongVie 2在可控性方面表现显著优于现有方法[21] - 消融实验验证了三阶段训练的有效性,完整模型(Base Model + Control Learning + Degradation Adaptation + History Context)在各项指标上达到最佳,例如美学质量(A.Q.)从49.72%提升至58.47%,结构控制(S.C.)从83.56%提升至91.05%,时间一致性指标(D.D.)从15.15%大幅提升至82.59%[26] - 在提出的LongVGenBench基准上,LongVie 2在多项定量指标上达到SOTA水平,并获得最高用户偏好度,其用户主观测评得分(如视觉质量VO为4.40)显著高于其他对比方法[29] 行业评测基准的建立 - 研究提出了LongVGenBench,这是首个专为可控超长视频生成设计的基准数据集,旨在推动该方向的系统研究与公平评测[27] - 该基准包含100个时长超过1分钟的高分辨率视频,覆盖真实世界与合成环境的多样场景[28]
英伟达主管!具身智能机器人年度总结
具身智能之心· 2025-12-29 20:50
文章核心观点 - 英伟达机器人主管Jim Fan认为,机器人领域在2025年仍处于缺乏统一标准、硬件可靠性制约软件迭代的“蛮荒时代”,当前主流的VLA技术范式也存在结构性问题 [1][11][13] 行业现状与核心挑战 - 硬件进展快于软件,前沿硬件(如Optimus、e-Atlas、Figure、Neo、G1)的潜力未被AI完全发挥,机器人“身体”能力强于“大脑”指令 [11][14][15] - 硬件可靠性严重不足,过热、马达损坏、固件问题频发,需要整个运维团队维护,错误不可逆,这限制了软件的快速迭代速度 [16][17][18][30] - 领域缺乏统一、可复现的标准评测体系,基准测试是一场“史诗级灾难”,在硬件平台、任务定义、评分标准等方面均无共识,导致人人都可通过定义新基准宣称达到SOTA [8][9][20][21] 主流技术范式(VLA)的局限与未来方向 - VLA(视觉-语言-动作模型)是2025年机器人领域最热的词汇,当年发表了超200篇相关工作,它赋予机器人处理多模态信息的大脑,具备任务泛化能力 [44][45][47] - 当前基于VLM(视觉-语言模型)的VLA范式存在根本性结构问题:VLM是为视觉问答优化,其大多数参数服务于语言和知识,而非物理世界;其视觉编码器会丢弃对灵巧操作至关重要的低层细节 [11][24][26][27][49] - VLA的性能不会随VLM参数规模增长而线性提升,因为预训练目标与机器人控制不对齐 [26][51] - 未来方向包括:转向以**视频世界模型**作为更合理的机器人策略预训练目标,因其天然编码时序动态与物理规律 [28][53];发展整合物理驱动世界模型的VLA,统一语义指令与物理精度 [50];采用“形态无关表征”解耦规划与控制,实现零样本跨具身迁移,而非盲目堆叠参数 [51] 硬件与数据进展 - 2025年涌现多款新硬件本体,如Figure03、宇树H2、众擎T800、小鹏IRON机器人、智元精灵G2,它们在运动能力上表现亮眼,大型机器人已能像小型机器人一样灵活 [33][35] - 核心工程挑战在于如何在维持高性能的同时,提升硬件的抗摔性、电池发热、长时间运行稳定性等可靠性问题 [35] - 数据在具身智能领域的重要性已不言自明,数据规模存在Scaling Law,例如Generalist项目证明数据越大、参数越高,模型表现越好 [36][37][43] - 数据采集方式多样,如Sunday机器人利用技能捕捉手套能以近90%的成功率转换人类动作为机器人数据,Egocentric-10K数据集汇集了1万小时工作数据 [38][40][42] - 具体数据路线(人类中心采集、真机遥操、仿真、互联网数据等)及模态配比仍是未收敛的开放问题 [43] 数据与评测的未来趋势 - 未来数据范式可能转向 **“模拟优先、失败为中心”** ,依赖高保真模拟环境生成多样化轨迹,并充分利用失败轨迹学习,以提高数据利用效率和可持续性 [54][55][56] - 现有评测标准过于依赖二元成功率,未来需进行更全面的能力评估,以反映鲁棒性、效率和安全裕度 [56] 市场前景与产业动态 - 机器人产业市场前景广阔,据摩根士丹利研究,其规模有望从当前的910亿美元激增至2050年的25万亿美元 [57] - 硅谷科技巨头(除微软/Anthropic外)均已加码机器人软/硬件布局 [59]
SSM+扩散模型,竟造出一种全新的「视频世界模型」
机器之心· 2025-05-31 12:00
研究背景与核心创新 - 研究结合状态空间模型(SSM)、扩散模型和世界模型等前沿技术,开发出新型视频世界模型,实现长期记忆与空间一致性的平衡 [1][9] - 传统视频扩散模型受限于注意力机制,难以维持长期一致性,导致环境模拟失真 [3][4][6] - 创新点在于采用Mamba的逐块扫描方案,配合局部注意力机制,显著提升长期记忆能力同时保持计算效率 [9][15][16] 技术架构设计 - 采用空间主/时间次的token排序方式,确保因果约束并防止未来信息泄露 [11] - 提出逐块重新排序方法:将token序列分解为(b_h,b_w,T)块,通过调整块大小平衡时间相关性与空间一致性 [13][15] - 引入帧局部注意力模块,采用窗口大小为k的因果注意力机制增强短期一致性 [16] - 动作条件处理:通过MLP处理连续动作值,直接学习离散动作嵌入实现交互控制 [17] 训练与推理优化 - 改进训练方案:保持随机长度前缀完全无噪声,强制模型学习长期依赖性 [18] - 推理阶段仅需维护前k帧KV缓存和块SSM状态,实现恒定内存占用和生成速度 [21] - 训练成本随上下文长度线性增长,显著优于传统二次复杂度模型 [39] 实验性能表现 Memory Maze数据集 - 检索任务(400帧):SSIM达0.898,显著优于Mamba2(0.747)和因果Transformer(0.829) [25] - 推理任务(224帧):SSIM达0.855,优于所有次二次模型 [26] - 长期记忆能力与全上下文因果Transformer(SSIM 0.914)接近 [25][27] TECO Minecraft数据集 - 推理任务(50帧):SSIM达0.454,优于DFoT(0.450)和25帧上下文因果Transformer(0.417) [33] - 能准确预测已探索区域,而有限上下文模型失效 [36] 效率优势 - 训练时间线性扩展,推理保持恒定内存和计算成本 [39] - 单次前向传递速度显著快于全注意力机制 [39]