VLM(视觉语言模型)
搜索文档
如何训练VLA?丰田研究院发布史上最大实验规模「保姆级」教程
机器之心· 2026-03-07 19:20
研究概述 - 丰田研究院与清华大学联合发布了一份关于大型行为模型训练的系统性研究,旨在为视觉-语言-动作模型的训练提供数据与策略的“避坑指南” [2][3] - 该研究进行了大规模实验验证,使用了4000小时的机器人-人类操作数据、5000万个视觉-语言样本,训练了89个不同的策略模型,并进行了58000次仿真评估和2835次真机测试 [2] 核心方法论:协同训练 - 研究的核心是协同训练方法,主张让模型同时从目标机器人数据和其他异构数据模态中学习,以提升泛化能力,而非仅依赖昂贵的机器人数据 [4] - 研究系统地探索了五种协同训练数据模态和三种训练策略,以寻找最佳训练“配方” [6][8] 协同训练数据模态 - **标准视觉-语言数据**:包含VQA、图像描述等,提供常识、空间推理和物体定位能力 [10] - **机器人轨迹的语言标注**:包括基于规则的脚本生成和利用GPT-5生成的富语义描述,提供显式的语义监督 [10] - **跨具身机器人数据**:来自Open X-Embodiment等数据集,包含不同形态机器人的数据,引入多样化的物理交互先验 [10] - **人类视频**:利用海量第一视角视频,通过提取“潜在动作”或利用GPT-5生成语言标注来利用 [10] - **离散机器人动作Token**:将连续动作压缩为离散Token,探究动作离散化建模的有效性 [10] 训练策略 - **单阶段协同训练**:将目标机器人数据与协同训练数据混合,进行联合训练 [10] - **两阶段-仅首阶段协同**:第一阶段使用协同数据进行预训练,第二阶段仅使用目标机器人数据进行微调 [10] - **两阶段-全协同**:第一阶段使用协同数据预训练,第二阶段微调时继续保留协同数据以缓解灾难性遗忘 [10] 模型架构 - 研究采用了VLM + Action Flow Transformer的架构,通过一个特殊的Observation Encoding Token来压缩视觉语言特征 [8] - 实验证明,这种压缩的单token表征方式,比使用复杂的全量特征在泛化性上更强 [8] 实验结果:有效模态与策略 - **有效模态(红榜)**:引入“多样的视觉-语言数据”和“跨具身机器人数据”能显著提升模型对分布外场景、未见任务及语言指令跟随的适应能力 [14] - **最有效的数据类型**:“标准视觉-语言数据”、“VLM生成的机器人数据标注”以及“人类视频的语言标注”效果最为显著,这三者本质上都属于多样的视觉-语言数据,证明增强VLM基座的视觉-语言理解能力能直接转化为更强的机器人策略 [15] - **数据模态的最佳使用阶段**:“标准视觉-语言数据”和“人类视频的语言标注”在全阶段加入都能带来收益;“机器人轨迹的语言标注”和“跨具身机器人数据”主要在“第一阶段”发挥作用 [16] - **协同训练的核心价值**:无论引入何种协同训练数据,对于训练集中已见过的任务,性能基本维持不变,其核心价值在于提升“泛化性” [17] 实验结果:无效或有限模态 - **离散动作Token(黑榜)**:协同训练实验中并未带来统计学意义上的显著提升 [24] - **具体问题**:使用FAST Token协同训练甚至会降低模型的泛化性;从视频中提取的Latent Actions仅在目标机器人数据匮乏时有效,一旦机器人数据量增加,其收益便迅速递减 [24] 组合模态与性能提升 - 将所有有效模态组合训练得到的模型,在各项指标上全面超越了仅用机器人数据训练的模型 [19] - 在真实世界的语言指令跟随任务中,平均完成率提升了45.3%;在仿真环境的未见任务中,成功率提升了36.4% [21] - 协同训练还提升了模型的表征质量与快速适应能力,仅使用200条演示数据微调,经过协同训练的模型就能迅速掌握全新的长程灵巧操作任务 [21] 对VLM主干网络的影响 - 有效的协同训练能够帮助策略模型中的VLM主干网络保留甚至增强通用的视觉语言理解能力 [23] - 经过协同训练的模型不仅在通用视觉语言基准上保留了能力,甚至在空间推理等维度上优于原始的VLM权重 [26] - 这证明一个保持了世界理解能力的VLM主干是构建高性能机器人策略的基础 [27] 关于思维链的探索 - 研究尝试让模型在输出动作前显式生成从协同训练数据中学到的中间推理步骤 [30] - 结果发现,与仅将思维链内容作为辅助训练目标相比,显式思维链条件化并没有带来性能提升,表明对于物理操作任务,协同训练带来的隐式推理已经足够 [31] 研究深度与作者 - 论文还包含了关于模型架构的详细消融实验、超参数的精细调节以及统计学上的严谨验证 [33] - 本研究的第一作者是清华大学交叉信息研究院的博士生林凡淇,该工作是在丰田研究院LBM团队实习期间完成的 [32]
奔驰&图宾根联合新作!SpaceDrive:为自动驾驶VLA注入空间智能
自动驾驶之心· 2025-12-19 13:46
文章核心观点 - 奔驰与图宾根大学等机构联合提出了一种名为SpaceDrive的新型端到端自动驾驶框架,该框架通过引入统一的3D位置编码,解决了现有基于视觉语言模型的驾驶系统在精细3D空间关系理解和连续坐标预测方面的根本缺陷,从而显著提升了轨迹规划的几何精度与安全性 [2][3][31] 当前VLM在自动驾驶中的系统缺陷 - **2D语义与3D几何的割裂**:视觉语言模型主要在大规模2D图像-文本对上进行预训练,极度缺乏3D空间先验,导致场景描述模糊和空间推理能力存在缺陷 [5] - **数字token化的缺陷**:语言模型将坐标数值逐位拆解为字符或数字token进行处理,本质是拟合token的联合分布而非进行数值计算,这忽略了数值的连续邻近结构,并将不同位token的重要性平均化,从机制上拉低了连续数值预测的精度与稳定性 [5] SpaceDrive框架的核心方法 - **统一的空间接口**:摒弃传统VLM将坐标数值视为文本token的处理方式,引入统一的3D位置编码作为通用的空间表征,贯穿于感知、推理和规划阶段 [3][4] - **感知阶段:视觉与深度的显式融合**:利用冻结的深度估计器获取绝对深度,将图像Patch投影至3D度量空间,生成3D位置编码向量,并将其叠加到视觉token上,为视觉输入注入绝对空间坐标信息 [8][9] - **推理阶段:统一坐标接口**:将输入提示中的坐标数值提取出来,使用与视觉侧相同的3D位置编码器进行编码,替换原有的数字token序列,并在前面插入特殊指示符⟨IND⟩,实现文本侧的空间信息统一表示 [10] - **输出阶段:回归优于分类**:当模型生成特殊指示符⟨IND⟩时,后续的隐藏状态被送入一个专用的位置编码解码器,直接回归出3D坐标,取代了语言模型逐位生成数字的方式 [13][14] - **损失函数**:对于坐标预测采用Huber Loss进行监督,文本部分则保留原有的交叉熵损失 [15] 实验性能与评估 - **开环规划性能**:在nuScenes数据集的开环评估中,SpaceDrive+在所有指标上超越了现有的OmniDrive/ORION等VLM-based方法,平均L2误差为0.32米,平均碰撞率为0.23%,平均越界率为1.27% [17] - **闭环规划性能**:在Bench2Drive闭环基准测试中,SpaceDrive+取得了78.02的驾驶得分和55.11%的成功率,在VLM-based方法中排名第二 [3][20][21] - **框架优势**:SpaceDrive框架完全不依赖鸟瞰图特征,统一的位置编码接口足以支撑VLM内部的3D空间建模,从架构上减少了对密集鸟瞰图表征的依赖 [18] 消融实验的关键结论 - **位置编码注入位置很关键**:仅将位置编码用于文本坐标替换而不注入视觉token提升有限;将3D位置编码注入视觉token带来显著增益;当统一的位置编码同时应用于视觉和文本时,规划性能最高 [26] - **编码器/解码器选择十分重要**:正弦余弦编码因其天然的平移等变性,作为编码器优于可学习的MLP编码器;输出端使用可学习的、逐坐标点的MLP解码器优于直接反解正弦余弦编码 [27] - **可学习的归一化因子十分重要**:固定尺度的位置编码容易造成语义不稳定或收敛困难,而可学习的归一化因子显著改善了L2误差、碰撞率和越界率 [28] - **位置编码接口具备可迁移性**:同一套位置编码空间接口在Qwen-VL与LLaVA两种不同的基础视觉语言模型上都能保持相近的性能收益,说明增益主要来自统一空间推理接口而非特定基座模型的特殊适配 [30] SpaceDrive框架的主要贡献 - **通用空间表示**:引入统一的3D位置编码,在感知、推理和规划模块中始终如一地工作,超越了特定任务的嵌入,迈向了更具通用性的空间智能 [33] - **显式3D理解**:将空间编码与视觉token进行加性整合,在语义内容和3D位置之间创建了显式关联,实现了更准确的场景理解和推理 [33] - **回归坐标数值本质**:通过用基于回归的专用解码取代逐位坐标生成,解决了语言模型在处理连续数值量方面的根本限制 [33] - **框架通用性**:该方法展示了与不同VLM架构的兼容性,并证明适用于推理时增强功能,表明其广泛适用性 [33]
2026年辅助驾驶将迎阵营洗牌?全新小鹏P7携VLA研发蓝图欲抢占先机
证券日报网· 2025-08-29 18:49
产品定位与配置 - 全新P7定位为极致运动轿跑 全系标配Ultra系统和双腔空气悬架等高端配置 旨在强化品牌技术形象[1] - 新车在保持运动造型的同时优化空间设计 二排膝部空间达120mm 坐垫长度513mm 臀部空间宽度1400mm 后备厢可拓展空间达1929L[2] - 四驱版本通过价格调整提升性价比 使定价策略体现"用户每一分钱都有真金白银配置体现"的理念[2] 产能与销售目标 - 模块化技术优化使工厂支持多车型生产 产能可支撑冲击纯电动轿车细分市场前三的目标[1] - 现车已部分到店实现上市即交付 所有资源按细分市场前三目标匹配 期望突破老款23万辆销量并更快达成10万辆里程碑[1] 智能化技术布局 - 公司2024年在VLA(视觉语言辅助驾驶)投入接近50亿元 预计量产落地还需时间[2] - VLA与VLM(视觉语言模型)将于2024年底或2025年逐步融合 实现快响应与强推理协同[2] - 预计2026年中国自动辅助驾驶领域将出现阵营洗牌 当前第一阵营可能全降为第二阵营[2] 隐私安全方案 - OMS系统支持大屏关闭和物理罩盖 配备夜间红外查看功能[3] - VLM技术实现数据本地处理不上传 保障无网环境正常使用[3] 市场战略与规划 - 新车将于9月3日登陆慕尼黑车展 以全系Ultra和高性价比策略冲击市场[3] - 该车型作为品牌图腾产品 是公司四季度冲击盈利目标和巩固市场地位的关键力量[3]