Workflow
Hand3D数据集
icon
搜索文档
突破2D-3D鸿沟!北大提出VIPA-VLA,视频解锁机器人精准操控
具身智能之心· 2025-12-26 08:55
研究背景与核心问题 - 现有视觉-语言-动作模型依赖2D视觉输入制定策略,但在真实3D物理环境中执行任务时,感知与行动存在割裂,导致机器人空间定位精度低、任务通用性差,难以适应复杂现实场景[3] - 核心难题在于如何让机器人像人类一样,从2D视觉信息中精准推断3D空间关系,解决“2D感知与3D动作脱节”的问题[3] 解决方案与核心洞察 - 研究团队提出一种全新的空间感知VLA预训练范式,通过人类演示视频的视觉-物理对齐,让模型在学习机器人策略前就掌握3D空间理解能力[4] - 核心洞察是不纠结于人类与机器人的“身体差异”,而是提取人类动作中不变的3D空间逻辑,这些空间先验知识可以跨载体迁移到机器人身上[7] 关键数据集:Hand3D - 构建了Hand3D数据集,分为Hand3D-visual和Hand3D-action两部分,作为机器人的“3D空间教科书”[8] - Hand3D-visual包含约30万条指令-答案对,通过点云估计、物体定位和手部姿态标注,将2D视觉观测与3D物理空间关联[9][10] - Hand3D-action包含103万条视频-指令-运动三元组,从人类视频中提取手腕的3D轨迹并离散化为“运动令牌”,提供细粒度的3D动作监督[14] - 该数据集无需依赖昂贵3D扫描设备,大幅降低了3D空间监督数据的获取成本[14] 模型架构:VIPA-VLA - 设计了VIPA-VLA双编码器架构,核心是将语义视觉特征与3D空间特征深度融合[15] - 语义视觉编码器基于预训练的视觉-语言模型,负责提取图像高层语义特征;3D视觉编码器采用Cut3R模型,从单张2D图像中估计密集点云,输出几何信息[23] - 通过基于交叉注意力的融合层结合两种特征,并利用残差连接得到最终融合特征,既能保留语义理解能力,又能注入3D空间信息[17] - 在动作建模方面,将3D动作轨迹转化为运动令牌序列,并引入扩散Transformer作为动作头,生成可执行的动作块[18] 训练流程 - 训练分为三个阶段:3D视觉预训练、3D动作预训练、后训练适配机器人任务[21] - 阶段1冻结所有预训练参数,仅训练融合层,利用Hand3D-visual的VQA数据,让模型学习从2D语义和3D空间特征中推理3D关系[22] - 阶段2冻结语义和3D编码器,扩展LLM词汇表以包含运动令牌,并用Hand3D-action数据训练LLM,预测3D运动令牌序列[23] - 阶段3添加DiT动作头,冻结视觉和3D编码器,仅训练LLM骨干和动作头,使用机器人任务数据适配具体任务[24] 实验结果 - 在LIBERO基准的单视图输入设置下,VIPA-VLA的平均成功率达到92.4%,超过GR00T N1.5和4D-VLA等基线;在双视图设置下,平均成功率高达96.8%[28] - 在LIBERO的长序列任务中,VIPA-VLA的成功率达到85.6%,显著高于专门优化空间推理的SpatialVLA[29] - 在更具挑战性的RoboCasa基准上,仅用每个任务50条人类演示数据训练,VIPA-VLA的平均成功率达到45.8%,超越GR00T N1和π0.5,在“门/抽屉”类别中成功率高达67.7%[30] - 在真实机器人任务中,Wipe-Board任务的整体成功率达到60%,子任务成功率83%,远超GR00T N1.5和InternVL3.5;Water-Plant任务的整体成功率50%,子任务成功率57%,同样大幅领先基线[31] - 在unseen环境中,VIPA-VLA的Wipe-Board任务整体成功率仍有50%,而其他模型的成功率普遍降至10%左右,证明其学到的3D空间逻辑具有极强的迁移能力[31] - 在空间理解专项测试中,VIPA-VLA的距离预测误差仅为0.12米,方向预测准确率达到1.82/3,显著优于未经过空间预训练的InternVL3.5[35] 消融实验与关键贡献 - 移除“空间感知预训练”导致模型平均成功率下降1.2%[43] - 移除“双编码器架构”导致平均成功率下降3.7%[43] - 仅移除“融合层”导致平均成功率下降2.0%[43] - 结果表明,空间感知预训练和双编码器架构是VIPA-VLA性能提升的核心,两者相辅相成共同解决了2D-3D对齐问题[39] 研究意义与未来方向 - 该研究为机器人学习提供了一种新范式:不依赖昂贵的机器人数据,而是利用海量、易获取的人类演示视频,让模型提前掌握3D空间理解能力,再适配具体的机器人任务[40] - 该范式降低了机器人学习的数据源成本,并大幅提升了模型的泛化性[40] - 技术可直接用于家庭服务机器人、工业机械臂、医疗机器人等领域,让机器人在复杂、动态的真实环境中更精准地执行任务[40] - 未来计划将这种预训练范式与机器人数据预训练相结合,并扩展Hand3D数据集的场景覆盖范围[40]