Vision-Language-Action
搜索文档
走向融合统一的VLA和世界模型......
自动驾驶之心· 2025-12-23 17:29
文章核心观点 - 自动驾驶领域的两大前沿技术路线——视觉-语言-行动模型与世界模型正呈现出明显的融合趋势,其终极目标一致,旨在构建具备类人认知与决策能力的驾驶大脑 [2][5] - 两大技术路线并非对立,而是高度互补,未来将通过深度融合塑造“既会思考,又会沟通”的终极驾驶大脑,形成“感知-推理-仿真-决策-解释”的增强闭环 [19][51] VLA技术概述 - VLA是一种“视觉-语言-行动”模型,其输入为摄像头画面和人类语言指令,输出为直接的驾驶动作或轨迹,实现了从感知、理解到行动生成的端到端映射 [8][9] - 其系统架构分为三层:输入端融合多模态感知信息;中间层由视觉编码器、语言处理器与动作解码器构成,进行统一推理与决策生成;输出端直接驱动车辆 [9][10] World Model技术概述 - 世界模型是一种生成式时空神经网络系统,旨在让自动驾驶车辆具备“在脑海中预演未来”的能力,通过内部仿真评估不同决策后果,从而做出更安全、前瞻的规划 [12] - 其系统架构同样分为三层:输入端为时序多模态传感器数据;核心层负责状态编码、记忆与生成式推演;输出端提供未来场景表征,为下游规划模块提供前瞻信息 [13][14] VLA与世界模型的区别与联系 - **主要区别**:目标上,VLA侧重人车交互与可解释的端到端驾驶,世界模型侧重构建预测与仿真系统;输入上,VLA包含显式语言指令,世界模型侧重时序观测;输出上,VLA输出直接动作或轨迹,世界模型输出未来场景状态;技术上,VLA利用大模型推理能力,世界模型依赖状态编码与生成式预测 [15] - **核心联系**:技术起源背景一致,均源于对传统模块化pipeline的反思;终极目标一致,均旨在赋予机器类人的认知与决策能力;都面临解决长尾场景的挑战;技术底层均重度依赖“预训练+微调”范式与Transformer等核心架构 [16][17][18][19] VLA与世界模型的融合路径与案例 - **架构级融合**:以世界模型作为核心的“预测与仿真”引擎,以VLA作为“交互与决策解释”层,二者协同工作 [22] - **训练数据互补**:利用世界模型生成大量逼真场景数据训练VLA,同时VLA产生的语言标注数据可提升世界模型的语义理解 [22] - **形成闭环智能**:VLA做出初步决策,世界模型进行快速“脑内推演”并评估风险,再将信息反馈给VLA进行调整或解释 [22] - **3D-VLA**:由东北大学、加州大学洛杉矶分校、麻省理工学院等机构于2024年3月提出,是一个能打通3D感知、推理和动作生成的世界模型,其关键创新在于训练扩散模型来生成执行指令后的目标状态,让模型学会“想象未来” [24][25] - **WorldVLA**:由阿里巴巴达摩院、浙江大学等机构于2025年6月提出,是一个将VLA与世界模型统一于单一框架的自回归动作世界模型,实现了动作与图像的联合理解与生成,在机器人操作基准测试中动作生成成功率超过同类模型约4% [28][29][31] - **IRL-VLA**:由清华大学AIR研究院、上海交通大学等机构于2025年8月提出,是一种基于逆强化学习奖励世界模型的闭环强化学习框架,用于训练端到端自动驾驶VLA策略,在NAVSIM v2闭环驾驶基准上取得领先性能 [34][35] - **DriveVLA-W0**:由中国科学院自动化研究所等机构于2025年10月提出,通过引入未来图像预测作为密集自监督任务,解决VLA模型“监督不足”的问题,在NAVSIM基准测试中超越多传感器基线模型,并能放大数据扩展定律 [37][38][39][40] - **WM-MoE**:由麻省理工、夏威夷大学等机构于2025年10月提出,是一个基于世界模型并融合专家混合网络与大型语言模型的运动预测框架,旨在系统性解决自动驾驶中的极端案例难题,在多个公开数据集上展现出卓越的鲁棒性和泛化能力 [42][43][45] - **FutureSightDrive**:由西安交通大学、阿里巴巴达摩院等机构于2025年11月提出,其核心创新是引入视觉时空链式思考作为中间推理步骤,让VLA模型能够进行“视觉思考”,有效弥合了感知与规划之间的模态鸿沟 [47][49][50] 行业动态与展望 - 工业界已开始布局相关融合技术,例如华为强调其世界模型能力,小鹏汽车正在开发VLA 2.0,而理想汽车在发布会上也展示了相关理解,预计未来将有更多厂商入局 [51] - 下一代自动驾驶的发展方向预计将沿着VLA与世界模型深度融合的思路推进 [51]
让机器人「不仅会想,还能准确去做」,VLA-R1把「推理+行动」带进真实世界
机器之心· 2025-10-25 13:14
文章核心观点 - VLA-R1是一个“先推理、后执行”的视觉-语言-行动基础模型,旨在解决机器人在复杂场景下因缺乏显式推理而易出错的问题 [4] - 该模型通过结合链式思维监督与可验证奖励的强化学习,同时优化推理质量和执行正确性 [4] - 模型在域内、域外、仿真及真实机器人实验中均表现出色,显示出强大的泛化能力和执行准确性 [17][18][24] VLA-R1模型概述 - VLA-R1采用两阶段训练策略:先用显式链式思维监督进行有教师的指令微调,再用可验证奖励进行后训练强化 [6][8] - 推理输出采用固定结构(`<think>…</think>` + `<output>…</output>`),确保可读性和可查错性 [8] - 项目论文和主页已公开,便于行业参考与研究 [10] 关键技术创新 - 引入三类“可验证奖励”:空间对齐奖励(GIoU)用于加速区域对齐与学习稳定性;轨迹一致性奖励(ALHF)综合位置、角度与段长尺度惩罚不合理轨迹;输出格式奖励强制结构化输出 [11] - 开发了VLA-CoT数据引擎与VLA-CoT-13K数据集,包含13K条与视觉/动作严格对齐的链式思维标注,为监督微调提供高质量信号 [12][13] 实验性能评估 - 在域内测试中,VLA-R1的可供性IoU达到36.51,比强基线ManipLVM-R1提升17.78%;轨迹平均误差为91.74,相对基线降低17.25% [18][22] - 在域外测试中,模型在UMD数据集上可供性IoU为33.96,在VAIT子集上轨迹平均误差为93.90,展现稳健泛化能力 [18][23] - 真实机器人实验中,在四个复杂餐桌场景下,可供性感知成功率为62.5%,轨迹执行成功率为75%,在颜色相近、遮挡等干扰下仍保持空间一致性 [24][26] - 跨平台仿真测试中,在Piper和UR5机械臂上,可供性成功率分别为60%和50%,轨迹成功率分别为80%和60%,显示跨平台泛化潜力 [27][29] 方法有效性验证 - 消融实验表明,仅使用链式思维(无强化学习)可将IoU从23.74提升至28.37;结合链式思维与强化学习后,IoU进一步升至36.51,轨迹误差显著改善 [30] - 实验证明“先学会想,再用奖励把想法炼成动作”是提升机器人任务性能的有效路径 [30] 行业应用前景 - 适用于家居拾放/收纳等日常操控,能在多物体、光照不均及遮挡环境下稳定完成“找-拿-放”闭环,典型场景包括餐具整理、物品归类等 [35] - 在仓拣/轻工装配场景中,可明确解析“部件-工具-容器”关系,生成安全顺滑轨迹,减少误抓误放,尤其适用于重复件、套件分选 [36] - 作为教学/评测平台,其结构化输出便于检查中间步骤,配合标准化指标,可用于课程竞赛基线模型,助力行业人才培养与技术迭代 [36]