文章核心观点 - 具身智能公司中科第五纪联合中科院自动化所团队推出BridgeV2W模型 通过引入“具身掩码”这一中间表征 成功将机器人坐标空间的动作映射到视频生成模型的像素空间 从而打通了预训练视频生成模型与具身世界模型之间的桥梁 使机器人获得可靠的“预演未来”能力 [1][5][20] - BridgeV2W的设计一举解决了当前具身世界模型面临的三大核心挑战:动作与画面“语言不通”、视角变化导致预测质量骤降 以及难以构建跨机器人平台的统一模型 [3][4][5][9] - 该技术路线展现出巨大潜力 其训练时可利用海量无标注人类视频扩展规模 推理时依赖轻量几何信息保证精度 为构建可扩展的通用机器人世界模型开辟了新路径 [15][16][17][18] 技术挑战与解决方案 - 核心挑战:当前具身世界模型面临三大难题 1) 机器人动作语言(关节角、位姿坐标)与视频生成模型语言(像素)不匹配 2) 模型预测对相机视角敏感 换视角后预测质量骤降 3) 机器人结构差异大 难以构建统一的世界模型 需为每种机器人定制架构 [3][4] - 核心创新:BridgeV2W提出“具身掩码”概念 利用机器人的URDF模型和相机参数 将动作序列实时渲染为每帧图像上的二值“动作剪影” 从而将坐标空间的动作直接“画”进像素画面中 [5] - 技术实现:采用ControlNet式的旁路注入 将具身掩码作为条件信号融入预训练视频生成模型 同时引入光流驱动的运动损失 引导模型聚焦于任务相关的动态区域 [6] 模型性能验证 - 在DROID数据集上的表现:DROID是目前最大规模的真实世界机器人操作数据集之一 BridgeV2W在PSNR、SSIM、LPIPS等核心指标上超越SOTA方法 在“未见视角”测试中 BridgeV2W生成物理合理、视觉连贯的未来视频 验证了其视角鲁棒性 在“未见场景”下泛化能力同样出色 [8][10] - 具体数据对比:在DROID数据集“未见视角”测试中 BridgeV2W的PSNR为20.87 SSIM为0.833 LPIPS为0.127 FVD为191.3 Mask-IoU为55.3 均优于对比方法IRASim、Cosmos和EVAC [10] - 在AgiBot-G1数据集上的表现:AgiBot-G1是一个双臂人形机器人平台 自由度与运动模式与DROID单臂平台截然不同 BridgeV2W无需修改模型架构 仅替换URDF并重新渲染掩码 就能无缝适配并取得媲美单臂的预测质量 [13] 技术优势与应用潜力 - 三大难题的破解:1) 动作-像素对齐:掩码是天然的像素级信号 与视频模型输入空间完全匹配 2) 视角自适应:掩码随当前相机视角动态生成 动作与画面始终对齐 3) 跨具身通用:只要提供URDF 单臂、双臂机器人都能用同一套框架生成对应掩码 无需修改模型结构 [9] - 下游任务应用:1) 策略评估:在世界模型中“试跑”不同策略 其评估结果与真实成功率高度相关 大幅降低策略迭代成本 2) 目标图像操作规划:给定一张目标图像 能在“想象空间”中搜索出可行动作序列 实现从视觉目标到物理动作的闭环规划 [14] - 数据利用的创新:训练时无需URDF或相机标定 只需用分割模型(如SAM)提取的“分割掩码”即可提供有效监督 研究团队将AgiBot-G1机器人数据与无标定的Ego4D FHO人类手部操作视频混合训练 仅用SAM提取的手部掩码就实现了惊人效果 说明人类视频蕴含丰富的动作先验 [15][17] 行业意义与未来展望 - 技术路线优势:BridgeV2W揭示了“视频生成模型 + 具身掩码 = 可扩展的机器人世界模型”这一前景路线 其优势在于:1) 能利用互联网上海量的人类视频数据 规模远超机器人数据数个数量级 2) 架构能自然受益于Sora、Wan等视频生成底座模型的升级 3) 展现出的跨平台、跨场景、跨视角泛化能力 是迈向通用具身智能的重要里程碑 [17][18][19] - 规模化训练新路径:该技术为世界模型的规模化训练开辟了全新路径 训练无需URDF或相机标定 可直接利用海量无标注人类视频 [20] - 未来潜力:当视频生成底座参数从十亿迈向千亿 训练数据从数千小时机器人视频扩展到百万小时人类操作视频 具身掩码从机械臂延伸至全身人形乃至多机协作时 机器人的“预演能力”将迎来巨大飞跃 [21]
中科第五纪联合中科院自动化所团队推出 BridgeV2W,让机器人学会"预演未来"
机器人大讲堂·2026-02-12 17:15