Workflow
普林斯顿大学最新!VLM2VLA:将 VLM 微调为 VLA,并避免灾难性遗忘
具身智能之心·2025-10-07 18:00

点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 研究指出,灾难性遗忘的根源在于 VLM 的互联网级预训练数据与机器人微调数据之间存在 分布不匹配 —— 预训练数据以图文对为主,而机器人数据 以低维动作向量为主,这种差异迫使研究者采用全参数微调,进一步加剧了对预训练知识的覆盖。 论文:Actions as Language: Fine-Tuning VLMs into VLAs Without Catastrophic Forgetting 链接:https://arxiv.org/pdf/2509.22195 项目:https://vlm2vla.github.io/ VLM2VLA 在做什么? VLM2VLA 的核心思路是 从数据层面解决分布不匹配问题 ,将低维动作转化为自然语言描述,使 VLA 微调数据与 VLM 预训练的图文分布对齐,进 而仅通过低秩适应(LoRA)微调即可实现动作生成,最小化对 VLM backbone 的修改,最终避免灾难性遗忘。 VLM2VLA训练范式首先通过自然语言表征底层动作,在数据层面解决分布失配问题。这种对齐机制 ...