行业技术背景与挑战 - 基于预训练视觉表征构建世界模型是具身智能领域的前沿方向,以DINO-WM为代表的模型能精确捕捉物理动态并具备零样本规划能力 [2] - 现有密集计算范式对所有图像块应用自注意力,不区分运动物体与静态背景,导致计算开销高昂,决策速度成为实际部署的重大挑战 [2] - 在处理Push-T等典型操作任务时,DINO-WM的模型预测控制单个决策循环耗时高达两分钟,这种延迟无法满足现实场景持续高频交互的需求,阻碍了机器人低成本端侧部署 [2] DDP-WM核心创新与设计理念 - 中山大学HCP Lab与拓元智慧X-Era AI提出新型高效世界模型框架DDP-WM,其核心思想是解耦动态预测,将计算资源精确分配给场景中不同属性的动态特性 [3] - 该框架源于对现有密集模型工作模式的洞察:大多数物理交互中,实际发生变化的区域面积占比很小,大量计算浪费在对静态背景的无效重复计算上 [4] - 研究发现,物理世界中稀疏的运动动态反映在特征层面是高度稀疏且结构化的,相邻帧特征图相减后只有极小部分特征有显著变化 [7] - DDP-WM将观测场景的潜在状态演化分解为两种动态:稀疏的主动态(由物理交互引起)和上下文驱动的背景更新(由主动态引发) [9] DDP-WM架构与核心模块 - 预测过程首先通过高效的历史信息融合模块,将速度、加速度等高阶动态信息注入当前帧特征,为精确预测提供上下文 [12] - 动态定位网络通过轻量级ViT识别下一帧中稀疏的主动态区域,输出二值掩码以引导计算资源 [13] - 稀疏主动态预测器使用多层ViT架构,但仅对动态定位网络识别出的稀疏前景特征子集进行计算,避免了在静态背景上的计算浪费 [14] - 低秩校正模块通过单向交叉注意力机制,允许背景特征以前景特征为指导进行低成本微调,确保特征空间演化的一致性和平滑性 [15] 实验验证:性能与效率 - 在五个仿真环境(PointMaze、Wall、Push-T、Rope、Granular)的实验中,DDP-WM在所有任务上的规划性能均达到或超过当前最先进的密集世界模型DINO-WM [17] - 在Push-T任务中,DDP-WM的MPC成功率达到98%,显著优于DINO-WM的90% [18] - 在PointMaze和Wall导航任务中,DDP-WM分别取得了100%和98%的高成功率 [18] - 在复杂的绳索和颗粒任务中,DDP-WM取得了最低的倒角距离,展现了其理解高自由度非刚体变形和复杂多体动力学的能力 [19] - 在Push-T任务中,DDP-WM的单步前向推理FLOPs为2.5G,仅为DINO-WM(23G)的约10.8%,理论计算成本大幅降低 [21] - DDP-WM在Push-T任务上实现了每秒1563个样本的推理吞吐量,相比DINO-WM提升了9.2倍 [21] - 在需要30次CEM迭代的Push-T任务中,DDP-WM的单次决策时间从DINO-WM的两分钟缩短至16秒,实现了9倍的规划速度提升 [3][21] 消融分析与技术洞察 - 消融实验表明,移除低秩校正模块后,虽然开环预测仍能保持高保真建模,但模型的MPC成功率从98%急剧下降到70% [22] - 移除LRM的模型生成的代价地形崎岖不平、噪声大,导致基于采样的优化器无法找到有效下降方向 [25] - 带有LRM的DDP-WM模型生成的代价地形平滑且具有明显的漏斗状宏观结构,为优化算法提供了清晰的引力井 [25] - 分析证实,真实特征图的更新过程本质上是低秩的,而LRM模块成功学习并复现了这种低秩结构 [26] 行业意义与展望 - DDP-WM的成功表明,通过对潜在空间运动模式的洞察进行针对性结构设计,可以在不牺牲甚至超越现有SOTA性能的前提下,显著提高世界模型的预测速度 [30] - 该工作将计算资源依赖降低了一个数量级,使得在更轻量级的边缘硬件上部署高频、复杂规划模型成为可能 [30] - 这项研究为在工业生产和家政服务等实际场景中部署先进的自主机器人铺平了道路,对推动具身智能走向实际应用有重大意义 [30]
中山大学HCP Lab联合拓元智慧提出高效世界模型DDP-WM,机器人规划效率提升9倍
机器之心·2026-03-03 16:14