文章核心观点 - BridgeV2W通过引入“具身掩码”这一创新设计,成功将机器人坐标空间的动作映射到视频生成模型的像素空间,解决了构建具身世界模型的核心挑战[2][8] - 该方法实现了动作与画面的像素级对齐、对任意新视角的鲁棒性以及跨不同机器人平台的通用性,为构建可扩展的通用机器人世界模型开辟了新路径[13][22] - BridgeV2W能够利用海量无标注的人类视频数据进行训练,同时继承视频生成领域的技术红利,展现出构建规模化机器人“数据飞轮”和迈向通用具身智能的巨大潜力[20][22] 当前具身世界模型面临的挑战 - 动作与画面“语言不通”:机器人使用关节角、末端位姿等坐标数值,而视频生成模型处理像素,直接拼接动作向量效果有限,缺乏空间对齐的“硬连接”[5] - 视角鲁棒性差:同一动作在不同相机视角下外观迥异,现有方法在训练视角外预测质量骤降,难以适应真实场景中多变的相机位置[5] - 跨平台通用性不足:机器人结构(单臂、双臂、移动底盘)千差万别,现有方法需为每种机器人定制架构,难以构建统一的世界模型[6] BridgeV2W的核心技术创新 - 提出“具身掩码”:利用机器人的URDF模型和相机参数,将动作序列实时渲染为每帧图像上的二值“动作剪影”,精准标出机器人在画面中的位置与姿态[8] - 采用ControlNet式旁路注入:将具身掩码作为条件信号融入预训练视频生成模型,在保留其强大视觉先验的同时,赋予其理解机器人动作的能力[9] - 引入光流驱动的运动损失:防止模型只复现静态背景,引导其聚焦于任务相关的动态区域[9] 实验验证与性能表现 - 在DROID数据集(大规模单臂操作)上表现优异:在PSNR、SSIM、LPIPS等核心指标上超越SOTA方法[12] - 域内测试:PSNR达22.89,SSIM达0.874,FVD为145.2,均优于对比方法[14] - 未见视角测试:PSNR达20.87,SSIM达0.833,FVD为191.3,展现了卓越的视角鲁棒性[12][14] - 未见场景测试:PSNR达19.73,SSIM达0.717,FVD为362.1,验证了出色的泛化能力[14] - 在AgiBot-G1数据集(双臂人形机器人)上无缝适配:无需修改模型架构,仅替换URDF并重新渲染掩码,即取得媲美单臂的预测质量,PSNR达24.49,SSIM达0.868[16][17] - 下游任务应用验证其实用价值: - 策略评估:BridgeV2W在世界模型中“试跑”不同策略,其评估结果与真实成功率高度相关,大幅降低策略迭代成本[23] - 目标图像操作规划:给定一张目标图像,能在“想象空间”中搜索出可行动作序列,实现从视觉目标到物理动作的闭环规划[23] 数据利用与可扩展性优势 - 训练时可利用海量无标注人类视频:通过将机器人数据与无标定的Ego4D FHO(第一人称手部操作视频)混合训练,仅用SAM提取的手部掩码即可实现有效学习,无需URDF或相机标定[20][24] - 推理时依赖轻量几何信息:部署时需URDF和相机参数渲染“计算掩码”以保精度,但训练门槛大幅降低[21][24] - 构建“数据飞轮”:互联网视频规模远超机器人数据数个数量级,该方法为利用人类视频构建机器人世界模型迈出关键一步[22] - 自动继承技术红利:架构使其能自然受益于视频生成底座模型(如Sora、Wan、CogVideoX)的升级,底座越强,“预演”越真[22] 行业意义与发展前景 - 迈向通用具身智能的重要里程碑:展现出的跨平台、跨场景、跨视角泛化能力,是构建通用世界模型的坚实基石[22] - 揭示极具前景的技术路线:“视频生成模型 + 具身掩码 = 可扩展的机器人世界模型”,为世界模型的规模化训练开辟全新路径[22] - 预示“机器人GPT时刻”:让机器人借助视频生成模型“预演”自身行动后果的技术路线被证明可行且潜力巨大[25]
仅凭"动作剪影",打通视频生成与机器人世界模型!BridgeV2W让机器人学会"预演未来"
AI科技大本营·2026-02-11 14:50