GLaD:知识蒸馏将3D几何先验注入VLA模型,任务成功率突破94%
具身智能之心·2025-12-12 09:22

研究背景与核心问题 - 视觉-语言-动作模型是具身智能的关键技术,能让机器人根据视觉和语言指令生成动作 [2] - 现有模型大多依赖2D视觉编码器,擅长语义对应但缺乏对深度、物体位姿等3D空间信息的编码能力 [2] - 此缺陷导致模型在操作任务中注意力分配错误,无法精准定位相关物体,影响任务完成精度 [2] 解决方案:GLaD框架 - 核心思路是通过知识蒸馏将3D几何先验注入VLA模型,使其同时具备语义理解和空间推理能力 [4] - 该框架无需依赖额外的深度传感器或3D标注 [4] - 整体架构分为几何蒸馏模块和分阶段训练策略两部分 [7] 几何蒸馏模块设计 - 模块核心是通过将LLM视觉token的隐藏状态与几何感知教师模型的特征对齐,实现几何知识深度融合 [9] - 训练采用组合损失函数,同时优化动作预测和几何对齐 [10] - 动作预测使用交叉熵损失,几何对齐使用MSE损失,通过超参数平衡两者权重 [10] 分阶段训练策略 - 第一阶段为几何蒸馏预训练:基于Bridge数据集,在8张A100 GPU上训练45个epoch(约9天),学习率5e-7 [12] - 第二阶段为下游任务微调:针对LIBERO等任务,采用LoRA进行参数高效微调,在8张A100 GPU上训练60k步,学习率3.5e-5 [12] - 训练中使用冻结的VGGT作为教师网络,从视觉观测中推断3D几何属性 [11] 实验数据集与基准 - 预训练选用Bridge数据集,因其多样化操作演示可让模型学习基础视觉-运动技能,且计算效率高 [13] - 评估使用LIBERO基准,包含130个语言条件化操作任务,分为SPATIAL、OBJECT、GOAL、LONG四个套件 [17] - 引入LIBERO-PRO基准,通过物体、位置、语义、任务四类扰动来检验模型是“记忆”还是“理解”任务 [17] 核心实验结果 - 在LIBERO基准上,GLaD平均成功率达94.1%,超过使用相同预训练数据的UniVLA的92.5% [14] - GLaD在OBJECT套件上表现最优,成功率达97.4% [14] - 在LIBERO-PRO的物体扰动场景下优势显著:在GOAL套件成功率81%,UniVLA为62%;在LONG套件成功率54%,UniVLA为47% [16] - 在特定任务如"Put(bowl, plate)"中,成功率差距达60个百分点(GLaD 84% vs UniVLA 24%) [16] 消融实验与关键设计验证 - 几何编码器选择:VGGT相比PI3编码器,在SPATIAL套件成功率提升29.8个百分点(95.0% vs 65.2%),整体平均成功率94.1%远超PI3的86.1% [25] - 特征对齐层:对齐LLM最终层(32层)相比对齐24层,在OBJECT套件成功率提升6.8个百分点(97.4% vs 90.6%) [25] - 几何融合策略:LLM表征空间的晚期融合相比视觉特征空间的早期加权融合,平均成功率提升10.1个百分点(94.1% vs 84.0%) [25] - 注意力图分析定性佐证了上述结论,GLaD能精准聚焦任务目标 [22] 关键讨论与结论 - GLaD通过几何对齐,使模型同时掌握“物体是什么”和“物体在何处”,这是其在OBJECT套件取得高成功率的核心原因 [23] - 消融实验证实,LLM最终层的晚期对齐方案显著优于早期融合,可实现任务自适应的几何-语义整合 [26] - LIBERO-PRO结果体现不对称鲁棒性:GLaD对物体外观扰动抗性强,但对位置扰动提升有限,验证了几何特征能让模型锚定空间结构而非表面视觉特征 [26] - 整体上,GLaD框架在LIBERO基准取得94.1%的平均成功率,在物体扰动场景中表现出显著鲁棒性,且无需额外3D标注或传感器,为高性能VLA模型构建提供了新范式 [28]