BridgeV2W - 财报，业绩电话会，研报，新闻

BridgeV2W

搜索文档

仅凭"动作剪影"，打通视频生成与机器人世界模型！BridgeV2W让机器人学会"预演未来"

机器之心· 2026-02-21 10:57

行业技术背景与核心挑战 - 赋予机器人“预演未来”的能力是具身智能发展的核心方向，即构建“具身世界模型”，让机器人在行动前能先在“脑海”中模拟动作后果 [3] - 当前技术面临三大核心挑战：1) 动作与画面“语言不通”，机器人使用关节角度等坐标数值，而视频生成模型处理像素，两者缺乏空间对齐的“硬连接” [6]；2) 视角鲁棒性差，相机视角一旦变化，预测质量会骤降 [6]；3) 通用性不足，不同机器人结构（如单臂、双臂）往往需要定制化模型，难以构建统一的世界模型 [7] 核心技术创新：BridgeV2W与具身掩码 - 中科第五纪与中科院自动化所团队提出的BridgeV2W，其核心创新是“具身掩码”，这是一种将机器人动作序列实时渲染为图像上二值“动作剪影”的方法，从而将坐标空间的动作无缝映射到像素空间 [8][9] - 该设计一举破解三大难题：1) 动作-像素对齐：掩码是像素级信号，与视频模型输入完全匹配 [15]；2) 视角自适应：掩码随相机视角动态生成，动作与画面始终对齐，天然泛化到新视角 [15]；3) 跨具身通用：只需提供不同机器人的URDF模型，即可用同一框架生成掩码，无需修改模型结构 [15] - 技术实现上，BridgeV2W采用类似ControlNet的旁路注入方式，将掩码作为条件信号融入预训练视频生成模型，并引入光流驱动的运动损失，引导模型聚焦于任务相关的动态区域 [10] 实验验证与性能表现 - **在DROID数据集（大规模单臂操作）上的表现**：BridgeV2W在PSNR、SSIM、LPIPS、FVD等核心指标上超越现有方法（SOTA）[13]。在“未见视角”测试中，BridgeV2W的PSNR为20.87，SSIM为0.833，LPIPS为0.127，FVD为191.3，均优于对比方法，展现了出色的视角鲁棒性 [14]。在“未见场景”测试中，其PSNR为19.73，SSIM为0.717，FVD为362.1，同样领先 [14] - **在AgiBot-G1数据集（双臂人形机器人）上的表现**：关键结果是，无需修改模型架构，仅替换URDF并重新渲染掩码，BridgeV2W就能无缝适配该完全不同的平台，并取得媲美单臂机器人的预测质量，这是迈向通用具身世界模型的重要一步 [17] - **下游任务应用价值**：BridgeV2W不仅生成视频，还能用于策略评估（在模型中“试跑”策略以降低真实试错成本）和目标图像操作规划（从视觉目标搜索出可行动作序列），验证了其实用性 [20] 数据利用与可扩展性优势 - BridgeV2W能够利用海量无标注的人类视频数据（如Ego4D FHO数据集）进行训练，仅需使用SAM等模型提取的手部掩码，而无需精确的URDF或相机标定信息 [22] - 实验数据显示，混合使用机器人数据与人类视频数据能取得优异效果：例如，“70% G1 seg + 30% G1 calc + Ego4D”混合数据训练的模型，PSNR达到24.58，SSIM为0.863，FVD低至118.5 [22] - 这揭示了一条关键的技术路线：训练时依靠“野生”视频扩大数据规模，部署时依靠轻量几何信息保证控制精度，实现了可扩展性与准确性的兼得 [24] 行业影响与发展前景 - BridgeV2W揭示的技术路线“视频生成模型 + 具身掩码 = 可扩展的机器人世界模型”具有三大关键优势：1) 启动数据飞轮，互联网视频规模远超机器人数据，使利用人类视频成为可能 [25]；2) 自动继承技术红利，其架构能自然受益于Sora等底层视频生成模型的升级 [25]；3) 成为通用具身智能的坚实基石，其展现的跨平台、跨场景、跨视角泛化能力是重要里程碑 [25] - 该工作为世界模型的规模化训练开辟了新路径，训练时无需URDF或相机标定，可直接利用海量无标注人类视频 [27] - 展望未来，随着视频生成模型参数规模从十亿迈向千亿，训练数据从数千小时机器人视频扩展到百万小时人类视频，以及具身掩码应用延伸至全身人形乃至多机协作，机器人的“预演能力”有望实现巨大飞跃 [28]

中科第五纪联合中科院自动化所团队推出 BridgeV2W，让机器人学会"预演未来"

机器人大讲堂· 2026-02-12 17:15

文章核心观点 - 具身智能公司中科第五纪联合中科院自动化所团队推出BridgeV2W模型通过引入“具身掩码”这一中间表征成功将机器人坐标空间的动作映射到视频生成模型的像素空间从而打通了预训练视频生成模型与具身世界模型之间的桥梁使机器人获得可靠的“预演未来”能力 [1][5][20] - BridgeV2W的设计一举解决了当前具身世界模型面临的三大核心挑战：动作与画面“语言不通”、视角变化导致预测质量骤降以及难以构建跨机器人平台的统一模型 [3][4][5][9] - 该技术路线展现出巨大潜力其训练时可利用海量无标注人类视频扩展规模推理时依赖轻量几何信息保证精度为构建可扩展的通用机器人世界模型开辟了新路径 [15][16][17][18] 技术挑战与解决方案 - **核心挑战**：当前具身世界模型面临三大难题 1) 机器人动作语言（关节角、位姿坐标）与视频生成模型语言（像素）不匹配 2) 模型预测对相机视角敏感换视角后预测质量骤降 3) 机器人结构差异大难以构建统一的世界模型需为每种机器人定制架构 [3][4] - **核心创新**：BridgeV2W提出“具身掩码”概念利用机器人的URDF模型和相机参数将动作序列实时渲染为每帧图像上的二值“动作剪影” 从而将坐标空间的动作直接“画”进像素画面中 [5] - **技术实现**：采用ControlNet式的旁路注入将具身掩码作为条件信号融入预训练视频生成模型同时引入光流驱动的运动损失引导模型聚焦于任务相关的动态区域 [6] 模型性能验证 - **在DROID数据集上的表现**：DROID是目前最大规模的真实世界机器人操作数据集之一 BridgeV2W在PSNR、SSIM、LPIPS等核心指标上超越SOTA方法在“未见视角”测试中 BridgeV2W生成物理合理、视觉连贯的未来视频验证了其视角鲁棒性在“未见场景”下泛化能力同样出色 [8][10] - **具体数据对比**：在DROID数据集“未见视角”测试中 BridgeV2W的PSNR为20.87 SSIM为0.833 LPIPS为0.127 FVD为191.3 Mask-IoU为55.3 均优于对比方法IRASim、Cosmos和EVAC [10] - **在AgiBot-G1数据集上的表现**：AgiBot-G1是一个双臂人形机器人平台自由度与运动模式与DROID单臂平台截然不同 BridgeV2W无需修改模型架构仅替换URDF并重新渲染掩码就能无缝适配并取得媲美单臂的预测质量 [13] 技术优势与应用潜力 - **三大难题的破解**：1) 动作-像素对齐：掩码是天然的像素级信号与视频模型输入空间完全匹配 2) 视角自适应：掩码随当前相机视角动态生成动作与画面始终对齐 3) 跨具身通用：只要提供URDF 单臂、双臂机器人都能用同一套框架生成对应掩码无需修改模型结构 [9] - **下游任务应用**：1) 策略评估：在世界模型中“试跑”不同策略其评估结果与真实成功率高度相关大幅降低策略迭代成本 2) 目标图像操作规划：给定一张目标图像能在“想象空间”中搜索出可行动作序列实现从视觉目标到物理动作的闭环规划 [14] - **数据利用的创新**：训练时无需URDF或相机标定只需用分割模型（如SAM）提取的“分割掩码”即可提供有效监督研究团队将AgiBot-G1机器人数据与无标定的Ego4D FHO人类手部操作视频混合训练仅用SAM提取的手部掩码就实现了惊人效果说明人类视频蕴含丰富的动作先验 [15][17] 行业意义与未来展望 - **技术路线优势**：BridgeV2W揭示了“视频生成模型 + 具身掩码 = 可扩展的机器人世界模型”这一前景路线其优势在于：1) 能利用互联网上海量的人类视频数据规模远超机器人数据数个数量级 2) 架构能自然受益于Sora、Wan等视频生成底座模型的升级 3) 展现出的跨平台、跨场景、跨视角泛化能力是迈向通用具身智能的重要里程碑 [17][18][19] - **规模化训练新路径**：该技术为世界模型的规模化训练开辟了全新路径训练无需URDF或相机标定可直接利用海量无标注人类视频 [20] - **未来潜力**：当视频生成底座参数从十亿迈向千亿训练数据从数千小时机器人视频扩展到百万小时人类操作视频具身掩码从机械臂延伸至全身人形乃至多机协作时机器人的“预演能力”将迎来巨大飞跃 [21]

仅凭"动作剪影"，打通视频生成与机器人世界模型！BridgeV2W让机器人学会"预演未来"

AI科技大本营· 2026-02-11 14:50

文章核心观点 - BridgeV2W通过引入“具身掩码”这一创新设计，成功将机器人坐标空间的动作映射到视频生成模型的像素空间，解决了构建具身世界模型的核心挑战[2][8] - 该方法实现了动作与画面的像素级对齐、对任意新视角的鲁棒性以及跨不同机器人平台的通用性，为构建可扩展的通用机器人世界模型开辟了新路径[13][22] - BridgeV2W能够利用海量无标注的人类视频数据进行训练，同时继承视频生成领域的技术红利，展现出构建规模化机器人“数据飞轮”和迈向通用具身智能的巨大潜力[20][22] 当前具身世界模型面临的挑战 - **动作与画面“语言不通”**：机器人使用关节角、末端位姿等坐标数值，而视频生成模型处理像素，直接拼接动作向量效果有限，缺乏空间对齐的“硬连接”[5] - **视角鲁棒性差**：同一动作在不同相机视角下外观迥异，现有方法在训练视角外预测质量骤降，难以适应真实场景中多变的相机位置[5] - **跨平台通用性不足**：机器人结构（单臂、双臂、移动底盘）千差万别，现有方法需为每种机器人定制架构，难以构建统一的世界模型[6] BridgeV2W的核心技术创新 - **提出“具身掩码”**：利用机器人的URDF模型和相机参数，将动作序列实时渲染为每帧图像上的二值“动作剪影”，精准标出机器人在画面中的位置与姿态[8] - **采用ControlNet式旁路注入**：将具身掩码作为条件信号融入预训练视频生成模型，在保留其强大视觉先验的同时，赋予其理解机器人动作的能力[9] - **引入光流驱动的运动损失**：防止模型只复现静态背景，引导其聚焦于任务相关的动态区域[9] 实验验证与性能表现 - **在DROID数据集（大规模单臂操作）上表现优异**：在PSNR、SSIM、LPIPS等核心指标上超越SOTA方法[12] - **域内测试**：PSNR达22.89，SSIM达0.874，FVD为145.2，均优于对比方法[14] - **未见视角测试**：PSNR达20.87，SSIM达0.833，FVD为191.3，展现了卓越的视角鲁棒性[12][14] - **未见场景测试**：PSNR达19.73，SSIM达0.717，FVD为362.1，验证了出色的泛化能力[14] - **在AgiBot-G1数据集（双臂人形机器人）上无缝适配**：无需修改模型架构，仅替换URDF并重新渲染掩码，即取得媲美单臂的预测质量，PSNR达24.49，SSIM达0.868[16][17] - **下游任务应用验证其实用价值**： - **策略评估**：BridgeV2W在世界模型中“试跑”不同策略，其评估结果与真实成功率高度相关，大幅降低策略迭代成本[23] - **目标图像操作规划**：给定一张目标图像，能在“想象空间”中搜索出可行动作序列，实现从视觉目标到物理动作的闭环规划[23] 数据利用与可扩展性优势 - **训练时可利用海量无标注人类视频**：通过将机器人数据与无标定的Ego4D FHO（第一人称手部操作视频）混合训练，仅用SAM提取的手部掩码即可实现有效学习，无需URDF或相机标定[20][24] - **推理时依赖轻量几何信息**：部署时需URDF和相机参数渲染“计算掩码”以保精度，但训练门槛大幅降低[21][24] - **构建“数据飞轮”**：互联网视频规模远超机器人数据数个数量级，该方法为利用人类视频构建机器人世界模型迈出关键一步[22] - **自动继承技术红利**：架构使其能自然受益于视频生成底座模型（如Sora、Wan、CogVideoX）的升级，底座越强，“预演”越真[22] 行业意义与发展前景 - **迈向通用具身智能的重要里程碑**：展现出的跨平台、跨场景、跨视角泛化能力，是构建通用世界模型的坚实基石[22] - **揭示极具前景的技术路线**：“视频生成模型 + 具身掩码 = 可扩展的机器人世界模型”，为世界模型的规模化训练开辟全新路径[22] - **预示“机器人GPT时刻”**：让机器人借助视频生成模型“预演”自身行动后果的技术路线被证明可行且潜力巨大[25]