Workflow
SeqWM
icon
搜索文档
ICLR 2026 | 世界模型卡在多机器人协作?一个「顺序分解」思路打通
机器之心· 2026-04-02 14:01
研究背景与挑战 - 多机器人协作是强化学习和机器人领域的核心难题,因为世界的变化由多个智能体共同决定,而非单一策略驱动[7] - 主要挑战包括:因果结构复杂化,多个“因果源”导致动力学模型学习难度显著增加;决策-世界闭环被打破,预测误差会迅速累积[7][8] 解决方案:SeqWM模型 - 中科院自动化所团队提出SeqWM,对多机器人联合动力学进行顺序式的因果条件化分解,该成果已被ICLR 2026接收,评审评分为8/8/8/2[3] - 核心创新在于将复杂的联合动力学建模,转化为一系列顺序条件化的状态转移过程,每个机器人只需学习自身对世界状态演化的边际因果贡献[11] - 该方法将原本的联合动力学重写为顺序条件化分解形式:$P\left(\delta_{t+1}\left|\delta_{t},\left\{a_{t}^{i}\right|_{i=1}^{N}\right.\right)\rightarrow\prod_{i=1}^{N}P^{i}\left(\delta_{t+1}\left|\delta_{t},a_{t}^{i}\right.\right)$,显著降低了建模难度[11][12] 技术实现与规划机制 - 在轨迹预测阶段,复杂的联合动力学被拆解为多个简单且可扩展的局部预测过程[16] - 在动作规划阶段,使用MPPI进行规划,机器人按顺序规划并共享预测轨迹,后续机器人可提前知道前序机器人的未来计划,形成显式的意图共享[16] - 技术架构上,每个机器人维护独立的世界模型,只建模自身对环境的边际贡献,后续机器人在预测时条件化前序机器人的预测结果[17] 实验验证与性能 - 在Bi-DexHands(双灵巧手协作操作)和Multi-Quadruped(多四足机器人协作)两个具有挑战性的环境中进行评估[23] - 实验结果表明,SeqWM在所有任务中均显著超过现有方法,在性能与样本效率方面均取得领先[18] - 算法展现出两种自然的协作行为:预测适应,例如接球机器人提前移动到预测落点;角色分工,例如在推箱子任务中自然产生主推力和方向调整的分工[24][25] 真实世界应用 - 研究团队将SeqWM部署到Unitree Go2-W机器人平台,进行了推箱子、通过窄门、引导目标机器人等真实环境实验[26] - 真实机器人系统中的协作行为与仿真结果高度一致,验证了SeqWM的实际应用潜力[29] 核心观点总结 - SeqWM提出通过顺序因果结构分解多机器人动力学的新建模方式,使复杂的多机器人协作问题变得更可建模、可规划,并提供了一种可扩展的真实机器人系统解决方案[29]