如何训练VLA？丰田研究院发布史上最大实验规模「保姆级」教程

研究概述 - 丰田研究院与清华大学联合发布了一份关于大型行为模型训练的系统性研究，旨在为视觉-语言-动作模型的训练提供数据与策略的“避坑指南” [2][3] - 该研究进行了大规模实验验证，使用了4000小时的机器人-人类操作数据、5000万个视觉-语言样本，训练了89个不同的策略模型，并进行了58000次仿真评估和2835次真机测试 [2] 核心方法论：协同训练 - 研究的核心是协同训练方法，主张让模型同时从目标机器人数据和其他异构数据模态中学习，以提升泛化能力，而非仅依赖昂贵的机器人数据 [4] - 研究系统地探索了五种协同训练数据模态和三种训练策略，以寻找最佳训练“配方” [6][8] 协同训练数据模态 - 标准视觉-语言数据：包含VQA、图像描述等，提供常识、空间推理和物体定位能力 [10] - 机器人轨迹的语言标注：包括基于规则的脚本生成和利用GPT-5生成的富语义描述，提供显式的语义监督 [10] - 跨具身机器人数据：来自Open X-Embodiment等数据集，包含不同形态机器人的数据，引入多样化的物理交互先验 [10] - 人类视频：利用海量第一视角视频，通过提取“潜在动作”或利用GPT-5生成语言标注来利用 [10] - 离散机器人动作Token：将连续动作压缩为离散Token，探究动作离散化建模的有效性 [10] 训练策略 - 单阶段协同训练：将目标机器人数据与协同训练数据混合，进行联合训练 [10] - 两阶段-仅首阶段协同：第一阶段使用协同数据进行预训练，第二阶段仅使用目标机器人数据进行微调 [10] - 两阶段-全协同：第一阶段使用协同数据预训练，第二阶段微调时继续保留协同数据以缓解灾难性遗忘 [10] 模型架构 - 研究采用了VLM + Action Flow Transformer的架构，通过一个特殊的Observation Encoding Token来压缩视觉语言特征 [8] - 实验证明，这种压缩的单token表征方式，比使用复杂的全量特征在泛化性上更强 [8] 实验结果：有效模态与策略 - 有效模态（红榜）：引入“多样的视觉-语言数据”和“跨具身机器人数据”能显著提升模型对分布外场景、未见任务及语言指令跟随的适应能力 [14] - 最有效的数据类型：“标准视觉-语言数据”、“VLM生成的机器人数据标注”以及“人类视频的语言标注”效果最为显著，这三者本质上都属于多样的视觉-语言数据，证明增强VLM基座的视觉-语言理解能力能直接转化为更强的机器人策略 [15] - 数据模态的最佳使用阶段：“标准视觉-语言数据”和“人类视频的语言标注”在全阶段加入都能带来收益；“机器人轨迹的语言标注”和“跨具身机器人数据”主要在“第一阶段”发挥作用 [16] - 协同训练的核心价值：无论引入何种协同训练数据，对于训练集中已见过的任务，性能基本维持不变，其核心价值在于提升“泛化性” [17] 实验结果：无效或有限模态 - 离散动作Token（黑榜）：协同训练实验中并未带来统计学意义上的显著提升 [24] - 具体问题：使用FAST Token协同训练甚至会降低模型的泛化性；从视频中提取的Latent Actions仅在目标机器人数据匮乏时有效，一旦机器人数据量增加，其收益便迅速递减 [24] 组合模态与性能提升 - 将所有有效模态组合训练得到的模型，在各项指标上全面超越了仅用机器人数据训练的模型 [19] - 在真实世界的语言指令跟随任务中，平均完成率提升了45.3%；在仿真环境的未见任务中，成功率提升了36.4% [21] - 协同训练还提升了模型的表征质量与快速适应能力，仅使用200条演示数据微调，经过协同训练的模型就能迅速掌握全新的长程灵巧操作任务 [21] 对VLM主干网络的影响 - 有效的协同训练能够帮助策略模型中的VLM主干网络保留甚至增强通用的视觉语言理解能力 [23] - 经过协同训练的模型不仅在通用视觉语言基准上保留了能力，甚至在空间推理等维度上优于原始的VLM权重 [26] - 这证明一个保持了世界理解能力的VLM主干是构建高性能机器人策略的基础 [27] 关于思维链的探索 - 研究尝试让模型在输出动作前显式生成从协同训练数据中学到的中间推理步骤 [30] - 结果发现，与仅将思维链内容作为辅助训练目标相比，显式思维链条件化并没有带来性能提升，表明对于物理操作任务，协同训练带来的隐式推理已经足够 [31] 研究深度与作者 - 论文还包含了关于模型架构的详细消融实验、超参数的精细调节以及统计学上的严谨验证 [33] - 本研究的第一作者是清华大学交叉信息研究院的博士生林凡淇，该工作是在丰田研究院LBM团队实习期间完成的 [32]