VLM2VLA
搜索文档
普林斯顿大学最新!VLM2VLA:将 VLM 微调为 VLA,并避免灾难性遗忘
具身智能之心· 2025-10-07 18:00
文章核心观点 - 提出一种名为VLM2VLA的创新方法,通过将机器人动作数据转化为自然语言描述,解决了视觉语言模型在微调为视觉语言动作模型时出现的灾难性遗忘问题 [2][3] - 该方法的核心是将低维动作向量转化为与VLM预训练数据分布一致的自然语言,从而仅需使用低秩适应技术进行高效微调,最大程度保留VLM原有的多模态理解和推理能力 [3][4] - 通过超过800次真实机器人实验验证,该方法在保留VLM核心能力的同时,实现了在新任务中的零样本泛化,尤其在多语言指令遵循和开放世界语义推理方面表现显著优于基线模型 [4][17][22] 技术方法 - 采用三级推理过程将动作预测层级化,全部使用自然语言描述:高层子任务预测、中层运动规划和低层动作生成,完全复用VLM的现有词汇表 [6] - 通过Gemini 2.5自动将原始机器人轨迹数据集重构为语言标注数据集,使数据格式与VLM预训练数据保持一致,解决了分布不匹配问题 [9] - 仅使用LoRA对Gemma-3-12B-IT模型的线性层进行微调,关键超参数包括LoRA秩为16、LoRA alpha为32、学习率为5e-5,不修改VLM基础架构且无需联合训练 [12][13] 实验验证与性能 - 在12个VQA基准测试中验证了模型对预训练多模态理解能力的保留程度,证明其有效避免了灾难性遗忘 [15] - 在分布内任务上性能接近基于更大数据集训练的OpenVLA,在复杂多步骤任务中因层级推理优势表现更佳 [17] - 在分布外任务中优势显著,多语言任务成功率依赖保留的语言能力,语义任务依赖预训练的常识推理,如在识别"Ash Ketchum"任务中成功率达60%,而基线模型完全失败 [17][22] 局限性与未来方向 - 自回归生成动作导致推理延迟较高,中位延迟为6.1秒,需优化解码策略 [19] - 当前仅支持平移自由度控制,无法处理旋转等灵巧动作,且模型针对特定机械臂训练,需探索更通用的"动作语言"表示 [22] - 依赖Gemini作为外部验证器判断子任务完成度,未来需将验证能力融入VLM本身,并扩展更大规模的机器人语言标注数据集以提升泛化能力 [19][22]