行业技术背景与核心挑战 - 赋予机器人“预演未来”的能力是具身智能发展的核心方向,即构建“具身世界模型”,让机器人在行动前能先在“脑海”中模拟动作后果 [3] - 当前技术面临三大核心挑战:1) 动作与画面“语言不通”,机器人使用关节角度等坐标数值,而视频生成模型处理像素,两者缺乏空间对齐的“硬连接” [6];2) 视角鲁棒性差,相机视角一旦变化,预测质量会骤降 [6];3) 通用性不足,不同机器人结构(如单臂、双臂)往往需要定制化模型,难以构建统一的世界模型 [7] 核心技术创新:BridgeV2W与具身掩码 - 中科第五纪与中科院自动化所团队提出的BridgeV2W,其核心创新是“具身掩码”,这是一种将机器人动作序列实时渲染为图像上二值“动作剪影”的方法,从而将坐标空间的动作无缝映射到像素空间 [8][9] - 该设计一举破解三大难题:1) 动作-像素对齐:掩码是像素级信号,与视频模型输入完全匹配 [15];2) 视角自适应:掩码随相机视角动态生成,动作与画面始终对齐,天然泛化到新视角 [15];3) 跨具身通用:只需提供不同机器人的URDF模型,即可用同一框架生成掩码,无需修改模型结构 [15] - 技术实现上,BridgeV2W采用类似ControlNet的旁路注入方式,将掩码作为条件信号融入预训练视频生成模型,并引入光流驱动的运动损失,引导模型聚焦于任务相关的动态区域 [10] 实验验证与性能表现 - 在DROID数据集(大规模单臂操作)上的表现:BridgeV2W在PSNR、SSIM、LPIPS、FVD等核心指标上超越现有方法(SOTA)[13]。在“未见视角”测试中,BridgeV2W的PSNR为20.87,SSIM为0.833,LPIPS为0.127,FVD为191.3,均优于对比方法,展现了出色的视角鲁棒性 [14]。在“未见场景”测试中,其PSNR为19.73,SSIM为0.717,FVD为362.1,同样领先 [14] - 在AgiBot-G1数据集(双臂人形机器人)上的表现:关键结果是,无需修改模型架构,仅替换URDF并重新渲染掩码,BridgeV2W就能无缝适配该完全不同的平台,并取得媲美单臂机器人的预测质量,这是迈向通用具身世界模型的重要一步 [17] - 下游任务应用价值:BridgeV2W不仅生成视频,还能用于策略评估(在模型中“试跑”策略以降低真实试错成本)和目标图像操作规划(从视觉目标搜索出可行动作序列),验证了其实用性 [20] 数据利用与可扩展性优势 - BridgeV2W能够利用海量无标注的人类视频数据(如Ego4D FHO数据集)进行训练,仅需使用SAM等模型提取的手部掩码,而无需精确的URDF或相机标定信息 [22] - 实验数据显示,混合使用机器人数据与人类视频数据能取得优异效果:例如,“70% G1 seg + 30% G1 calc + Ego4D”混合数据训练的模型,PSNR达到24.58,SSIM为0.863,FVD低至118.5 [22] - 这揭示了一条关键的技术路线:训练时依靠“野生”视频扩大数据规模,部署时依靠轻量几何信息保证控制精度,实现了可扩展性与准确性的兼得 [24] 行业影响与发展前景 - BridgeV2W揭示的技术路线“视频生成模型 + 具身掩码 = 可扩展的机器人世界模型”具有三大关键优势:1) 启动数据飞轮,互联网视频规模远超机器人数据,使利用人类视频成为可能 [25];2) 自动继承技术红利,其架构能自然受益于Sora等底层视频生成模型的升级 [25];3) 成为通用具身智能的坚实基石,其展现的跨平台、跨场景、跨视角泛化能力是重要里程碑 [25] - 该工作为世界模型的规模化训练开辟了新路径,训练时无需URDF或相机标定,可直接利用海量无标注人类视频 [27] - 展望未来,随着视频生成模型参数规模从十亿迈向千亿,训练数据从数千小时机器人视频扩展到百万小时人类视频,以及具身掩码应用延伸至全身人形乃至多机协作,机器人的“预演能力”有望实现巨大飞跃 [28]
仅凭"动作剪影",打通视频生成与机器人世界模型!BridgeV2W让机器人学会"预演未来"
机器之心·2026-02-21 10:57