文章核心观点 - 微软研究院与香港科技大学等团队提出的GrinningFace基准,旨在解决视觉语言动作模型如何有效继承大型视觉语言模型中丰富视觉-语义先验的核心问题 [1] - 该基准通过表情符号桌面操作任务,构建了能分离动作技能与语义识别能力的纯净测试环境,以精准诊断知识迁移效果 [2][4] - 系统实验揭示了VLM先验对VLA泛化能力的关键作用,并指出共训练、潜态动作预测等技术是实现高效知识迁移的关键方向 [7][13][19] GrinningFace基准的设计与目的 - 基准创新性地选择在VLM预训练数据中普遍存在、但机器人数据集中几乎未出现的表情符号作为核心代理,以分离“机器人动作技能”与“VLM先验知识”的贡献 [2] - 任务要求机器人手臂根据语言指令将立方体放置到对应的表情符号卡片上,指令格式为“拿起立方体并放置在 [表情描述] 上” [4] - 基准包含100个训练集表情符号和100个验证集表情符号,确保评估模型的泛化能力 [8] 评估体系与关键指标 - 采用双维度评估体系,将成功率拆分为执行成功率和识别成功率进行单独量化 [5] - 执行成功率反映机器人成功抓取立方体并放置到任意表情卡的概率,用于衡量动作技能掌握程度 [8] - 识别成功率反映机器人选择正确目标表情卡的概率,直接体现VLM先验知识的迁移效果 [8] - 设计了三类测试场景,全面覆盖分布内与分布外泛化评估 [8] 不同微调策略的性能对比 - 全参数微调适配特定任务效果好,但易发生灾难性遗忘,丢失VLM先验知识 [5] - 仅微调动作头能最大程度保留VLM先验,但动作技能学习不足,分布内场景适配差 [5] - LoRA微调能平衡先验保留与动作学习,但知识迁移提升有限,仍有优化空间 [5] 高效知识迁移的关键技术方向 - 共训练技术在VLA训练中加入视觉语言任务,在真实机器人实验中识别成功率达86.7%(26/30) [7][11] - 潜态动作预测将潜态动作作为高阶训练目标,避免模型被低阶信号干扰,识别成功率达80%(24/30) [11][13] - VLM冻结加LoRA预训练能大幅提升识别成功率超过90%,但复杂动作技能适配速度慢 [13] 实验验证与核心发现 - 真实机器人实验与仿真环境结果高度一致,验证了结论的可靠性 [11] - 注意力图谱分析揭示了“VLM先验→预训练对齐→微调优化”的递进式迁移路径 [15] - VLM先验的保留程度直接决定VLA的泛化能力,灾难性遗忘是当前技术的主要瓶颈 [19] 未来研究方向 - 优化参数高效微调技术,提升LoRA等方法的知识迁移效率 [19] - 设计更贴合真实场景的复杂任务,验证迁移技术的规模化应用能力 [19] - 探索多模态先验融合,结合触觉、语音等信息增强VLA的环境适应能力 [19]
微软&港科对比多种迁移技术!VLA 到底如何有效地继承 VLM 中丰富的视觉-语义先验?