Workflow
视觉 - 语言 - 动作(VLA)
icon
搜索文档
ICLR 2026|新版「图灵测试」:当VLA走进生物实验室
机器之心· 2026-02-20 07:43
研究背景与核心问题 - 现有VLA模型的研究和基准测试多局限于家庭场景,缺乏对专业科学场景(尤其是生物实验室)的适配[2] - 生物实验室具有实验流程结构化、操作精度要求高、多模态交互复杂(透明容器、数字界面)等特点,是评估VLA模型精准操作、视觉推理和指令遵循能力的理想场景[2] - 该研究旨在系统性回答:当前主流的视觉-语言-动作(VLA)模型,是否已经具备在真实生物实验室中执行实验流程的能力[4] 生物实验室的自动化挑战 - 实验操作具有长时序和强约束特征,其组合构成对顺序一致性和状态依赖高度敏感的完整流程[6] - 实验器材大多数为交互式,广泛采用螺纹、卡扣、分档旋钮等精细机械结构,对位姿控制和轨迹规划要求远高于常规操作[7] - 液体样本与透明容器的普遍存在,对视觉感知提出了更大挑战,这类场景在现有仿真与评测体系中长期被简化或忽略[8] - 上述因素导致,即便在家庭或工业场景中表现良好的模型,也可能在实验室任务中迅速失效,表明现有基准不足以反映模型在科研场景下的真实能力边界[8] AutoBio仿真系统的核心设计 - AutoBio提出一种以生物实验语义为中心的建模与评测范式,并非简单复刻实验室环境[11] - 将复杂实验操作抽象为一组生物实验原语(例如样本转移、混合反应、条件调控、分离与保存等),并映射为可执行的机器人运动与控制模块,在统一仿真环境中进行组合[11] - 系统由三部分构成:面向真实实验室的高保真仿真系统;覆盖多难度等级的标准化实验任务基准;与VLA模型直接兼容的数据生成、训练与评测接口[16] - 该设计使AutoBio能够在保持实验语义一致性的前提下,对不同模型进行可复现、可对比的系统评估[12] AutoBio仿真系统的技术实现 - 在实验仪器数字化建模方面,通过多视角视频采集与3D Gaussian Splatting重建,结合CAD建模与结构标注,生成高保真且物理可交互的数字仪器模型,兼顾视觉真实性与物理可交互性[13][14] - 针对生物实验高频操作扩展了一系列专用物理机制,包括基于螺纹结构的旋拧与自锁建模、具有离散阻尼特性的分档旋钮、偏心机构驱动的周期性振荡、面向液体样本的准静态液面建模等[17][21] - 在渲染层面引入基于物理的渲染(PBR)管线,以提升透明材料、液体以及仪器表面的视觉真实性,并支持仪器数字界面的动态渲染,使机器人能够通过视觉信号读取参数与识别状态变化[19] AutoBio评测基准与模型表现 - AutoBio构建了一个包含16个任务的评测基准,覆盖简单、中等、困难三个难度等级[9][21] - 简单任务为单步或低精度操作(如打开或关闭仪器盖);中等任务需要一定精度和语言理解能力(如拧开离心管、样本转移);困难任务涉及多模态推理(如读取屏幕参数并精确调节实验设备)[22] - 评测结果显示,在简单任务上,模型已表现出较高成功率;但当任务涉及高精度装配、液体判断或屏幕读数时,成功率显著下降;失败往往源于细节误差的持续累积[26] - 这一结果揭示出当前VLA模型在高精度操作、细粒度视觉推理以及长期实验流程建模方面仍存在显著不足[26] 研究总结与意义 - AutoBio提供了一个面向生物实验室的统一仿真与评测框架,使研究者能够系统性分析机器人在真实科研场景中的能力与局限[29] - 其目标是通过清晰的问题定义和可复现的评测体系,为通用机器人走向科研自动化提供一个坚实的起点,而非给出最终解决方案[30] - 随着相关技术的发展,AutoBio有望成为连接机器人学习与生命科学自动化的重要基础设施[31]
CES上的“物理AI”拐点:Robotaxi走向规模化,人形机器人供应链悄然形成
硬AI· 2026-01-14 23:22
核心观点 - 2026年是自动驾驶汽车从测试验证过渡到规模化、人形机器人从实验室实验转向小规模部署的元年 [2][3] - 行业焦点正从技术可行性转向规模化能力与成本控制 [36][37] 类人机器人供应链成形 - 供应商正转向类人机器人供应链,路径类似电驱动总成,提供集成方案与底层零部件 [4][5] - 舍弗勒试图成为主要“肌肉”供应商,提供一体化行星齿轮执行器,扭矩范围60–250 Nm,且回驱能力很低,NEURA已同意使用其执行器 [6] - 现代摩比斯宣布将为波士顿动力Atlas供应执行器,意图借助汽车规模化供应链制造机器人 [7] - 执行器约占物料清单成本的约60% [24] 机载芯片格局 - 类人机器人机载处理器上,英伟达仍占据主导,使用Jetson Orin或Thor的公司包括1X、Agility、Apptronik、波士顿动力、Figure AI等 [8] - 特斯拉与小鹏使用自研推理芯片 [9] - 高通推出面向机器人的下一代全栈架构方案Dragonwing IQ10 Series,但尚未清楚能否获得大规模采用 [10] 技术范式:从脚本走向视觉-语言-动作 - 最显著的范式变化是从预编程/脚本化动作转向视觉-语言-动作模型,让机器人能够“推理”完成任务 [11][12] - 波士顿动力用Google DeepMind Gemini Robotics的VLA模型替代传统模型预测控制,使Atlas能理解非结构化环境 [16] - Figure采用类似的双系统模型:System 1高频快速响应,System 2低频做高层推理与语言 [16] 训练数据:真实世界与仿真的高效闭环 - 行业争论从“仿真 vs 真实谁更好”转为“如何高效闭环” [14][15] - NEURA采取“物理优先”路线,建设大型实体训练中心收集高保真数据,再生成“合成孪生”在仿真中训练 [15] - 有公司通过远程操作收集人类示范数据,再用英伟达GROOT-Mimic在仿真中生成超过10万种动作变体进行训练 [17] - Mobileye强调其Mentee将基本以仿真来训练 [17] 商业化路径:从特定岗位切入 - 短期内,“通用类人机器人”更多会导入具体场景以证明商业可行性 [19] - Keenon Robotics拥有服务机器人全球40%市场份额,海外累计出口约10万台,产品价格从低于1万到约10万人民币,其类人机器人XMAN-R1可执行爆米花、倒饮料等任务 [20] - Deep Robotics聚焦工业巡检,覆盖距离最高63公里,可在危险区域执行24/7自主巡逻监测 [21] 降本驱动:规模是前提 - 降本主驱动归结为上量提升费用摊薄与供应商议价改善 [23] - 有公司称成本已从20万美元降至10万美元,并规划在未来几年降到5万美元,前提是销量达到数千台 [24] - 波士顿动力与现代汽车目标是在2028年实现年产能3万台,其2026年产量已全部提前分配给现代的汽车工厂 [24] - Mobileye披露,若年产量5万台,简化设计的制造成本约2万美元/台;若年产量10万台,成本可降至1万美元/台 [24] Robotaxi商业化加速 - 2026年是Robotaxi商业化加速年,Waymo与Zoox在CES大规模存在是信号 [26][27] - Waymo自成立以来已提供超过1000万次付费乘车,2025年12月达到每周45万次付费乘车,并扩张至休斯顿、迈阿密及东京、伦敦等国际市场 [27] - 亚马逊的Zoox从公开测试走向“可上市产品”展示,主打面向密集城市的无传统驾驶舱“车厢式”Robotaxi [28] - Mobileye与大众将在今年于洛杉矶推出L4级Robotaxi服务 [29] - 基于Lucid Gravity的自动驾驶车辆计划在2026年末于旧金山湾区启动 [29] 英伟达Alpamayo平台降低部署门槛 - 英伟达推出面向自动驾驶的Alpamayo平台与Thor,试图降低车企部署高阶能力的门槛,让车企无需从零投入数十亿美元 [30][31] - 德银指出其训练数据量仅为特斯拉所采集数据的一部分,模型能否覆盖真实世界边界案例仍待观察 [31] - 德银认为特斯拉凭借垂直整合存在结构性成本优势,如果自动驾驶趋于商品化,成本将成为最大分化点 [32] 汽车供应商的跨行业拓展 - Aptiv展示下一代端到端AI驱动的ADAS平台,实现城市复杂环境下的L2++免手驾驶,并推出云原生中间件平台LINC [33][34] - Aptiv强调传感器向航天与协作机器人扩展,以证明“新Aptiv”叙事,争取估值倍数重评 [34] - Visteon发布算力达700 TOPS的SmartCore HPC域控制器,可整合最多14个摄像头 [35][36] - Visteon推出由英伟达DRIVE AGX Orin驱动的插件式AI-ADAS计算模块,已应用于中国极氪车型 [36] - Visteon发布面向7英寸以下屏幕的“Entry Cockpit”,将手机投屏与数字导航带到两轮车与入门车型 [36]
CES上的“物理AI”拐点:Robotaxi走向规模化,人形机器人供应链悄然形成
华尔街见闻· 2026-01-14 12:09
核心观点 - 2026年被视为AI大规模进军物理世界的开端,自动驾驶汽车将从测试验证过渡到规模化,人形机器人将从实验室实验转向小规模部署 [1] - 行业焦点正从技术可行性转向规模化能力与成本控制,供应链绑定、产能爬坡与单位成本曲线成为下一阶段关键跟踪指标 [13][14] 自动驾驶 (Robotaxi) 发展态势 - **商业化加速**:2026年被视为自动驾驶商业化加速年,随着特斯拉2025年推出Robotaxi,多家玩家商业化动能增强 [10] - **运营数据验证**:Waymo自成立以来已提供超过1000万次付费乘车,并在2025年12月达到每周45万次付费乘车的节奏,业务已扩张至休斯敦、迈阿密及东京、伦敦等国际市场 [14][15] - **主要玩家动态**: - Waymo与Zoox在CES上大规模存在,显示行业动能强劲 [10] - Mobileye与大众计划在洛杉矶推出基于ID. Buzz的L4级Robotaxi服务 [15] - 由Nuro、Lucid、Uber共同推进的基于Lucid Gravity的自动驾驶车辆计划于2026年末在旧金山湾区启动 [15] - 亚马逊Zoox展示面向密集城市的无传统驾驶舱“车厢式”Robotaxi [15] 人形机器人发展态势 - **发展阶段**:行业正从实验室实验转向小规模部署 [1] - **商业化路径**:短期内,“通用类人机器人”将优先导入具体场景以证明商业可行性,而非直接进入家庭 [8] - **成本下降路径**:降本主要驱动力为规模上量带来的费用摊薄和供应商议价改善 [9] - 有公司称机器人成本已从20万美元降至10万美元,并规划在未来几年降至5万美元,前提是销量达到数千台 [10] - Mobileye披露,在收购Mentee背景下,若年产量达5万台,简化设计的制造成本约为2万美元/台;若年产量达10万台,成本可降至1万美元/台,目标是在2028年实现产能爬坡 [10] - **产能规划**:波士顿动力与现代汽车宣布目标是在2028年实现年产能3万台,且其2026年产量已全部提前分配给现代的汽车工厂 [10] 供应链与关键部件 - **供应链成形**:人形机器人领域正在培育全新的供应链,供应商正试图向该领域转型,路径类似电驱动总成 [1][4] - **执行器成为关键**:执行器被视为机器人的“肌肉”入口,约占波士顿动力机器人物料成本(BoM)的60% [1][10] - 舍弗勒展示一体化行星齿轮执行器,扭矩范围60–250 Nm,且回驱能力低,适合连续工况,已获NEURA采用 [4] - 现代摩比斯将为波士顿动力Atlas供应执行器,意图借助汽车规模化供应链来制造机器人 [4] - **芯片格局**:在机器人机载处理器上,英伟达凭借Jetson Orin或Thor平台仍占据主导,客户包括1X、Agility、Figure AI等众多公司 [3] - 特斯拉与小鹏使用自研推理芯片 [5] - 高通推出面向机器人的下一代全栈架构方案Dragonwing IQ10 Series,但尚未清楚能否获得大规模采用 [5] 技术范式与模型演进 - **从脚本走向Agentic**:最显著的范式变化是从预编程动作转向视觉-语言-动作模型,让机器人能够“推理”完成任务 [3] - Boston Dynamics用Google DeepMind的Gemini Robotics VLA模型替代传统模型预测控制,使Atlas能理解非结构化环境 [3] - **训练数据闭环**:行业争论焦点从“仿真 vs 真实”转为“如何高效实现真实世界数据与仿真的闭环” [7] - NEURA采取“物理优先”路线,建设大型实体训练中心收集高保真数据,再生成“合成孪生”在仿真中训练 [10] - 有公司通过远程操作收集人类示范数据,再用仿真生成超过10万种动作变体进行强化学习 [10] - Mobileye强调其Mentee将基本以仿真来训练 [10] 主要公司产品与战略 - **英伟达**:推出面向自动驾驶的Alpamayo(“大脑”)与Thor(“头骨”)组合方案,旨在降低车企部署高阶能力的门槛 [11] - **Aptiv**:展示下一代端到端AI驱动的ADAS平台,并推出云原生中间件平台LINC,旨在实现软件定义车辆,其传感器技术正向航天与协作机器人领域扩展 [12] - **Visteon**:发布算力达700 TOPS的SmartCore HPC域控制器,并推出插件式AI-ADAS计算模块,方便车企为存量平台升级功能,该产品已应用于中国极氪车型 [13] - **Keenon Robotics**:其服务机器人占据全球40%市场份额,海外累计出口约10万台,产品价格从低于1万到约10万元人民币 [10] - 旗舰类人机器人XMAN-R1可执行爆米花、倒饮料等任务,其VLA模型面向服务业 [10] - 在日本等高人工成本市场,其机器人使用寿命达8年,高于行业常见的3–5年 [10] - **Deep Robotics**:聚焦工业巡检,机器人最高覆盖距离63km,可在危险区域执行24/7自主巡逻,并采用可更换电池设计 [10]
北京大学最新!MobileVLA-R1:机械臂之外,移动机器人的VLA能力怎么样了?
具身智能之心· 2025-11-30 11:03
文章核心观点 - 北京大学等团队推出的MobileVLA-R1模型,通过“结构化思维链推理+两阶段训练范式”,首次在四足机器人上实现了自然语言指令下的显式推理与连续控制,有效弥合了高层语义推理与底层动作控制之间的鸿沟,在导航和操作任务中性能领先[1] 当前行业痛点与解决方案 - 当前四足机器人视觉-语言-动作系统面临“推理-控制脱节”困境,具体表现为直接从语言映射到动作导致稳定性差、泛化能力弱,以及依赖隐式嵌入导致推理不可追溯、难以进行错误排查[2] - MobileVLA-R1的核心突破在于将“思维链推理”与“连续动作执行”解耦,通过结构化数据监督和强化学习,让机器人先推理再执行,兼顾可解释性与控制稳健性[2] 核心技术架构与数据集 - 模型核心设计基于“结构化CoT数据集 + 两阶段训练 + 多模态感知融合”三大模块[4] - 构建了首个面向四足机器人的大规模结构化思维链数据集MobileVLA-CoT,包含18K条episode级样本、78K条步骤级样本和38K条导航专用样本,覆盖导航与操作全场景[4] - 数据集基于R2R、RxR导航数据集和262K规模的QUARD四足机器人数据集,通过大模型生成并经过规则过滤与人工校验[4][5] - 采用分层VLA架构,包含“感知-推理-执行”三级,实现从多模态输入到连续控制的端到端映射[6] - 采用两阶段训练范式:先在MobileVLA-CoT数据集上进行监督微调,建立基础映射;再采用Group Relative Policy Optimization进行强化学习优化,设计了三重奖励函数[8] - 多模态感知前端融合RGB图像、深度图和点云数据,使用DepthAnything V2和Point Transformer v3编码器精准捕捉3D空间信息[8] - 推理模块基于LLaMA3-8B语言模型生成结构化输出,动作解码器将其转化为四足机器人的连续控制指令[8] 模型性能表现 - 在导航任务基准测试中,在R2R-CE和RxR-CE数据集上的成功率分别达到68.3%和71.5%,较现有方法平均提升5%,导航误差低至4.05,轨迹效率达65.2%[10] - 在四足控制任务中,在QUARD数据集的6项运动与操作任务中平均成功率达73%,硬难度任务成功率达44%,显著超越QUART、MoRE等基线模型[12][13] - 在Unitree Go2四足机器人上的真实世界测试显示,在复杂指令下的成功率高达86%-91%,导航误差低于1.23,能稳定完成多步连贯任务[16][18] - 消融实验证明,同时启用运动、动作、格式三重奖励函数时性能最优,移除任一奖励会导致成功率下降3%-10%[17] - 多模态感知消融实验表明,新增深度和点云编码器后,导航成功率提升5.8%[19][20] 技术意义与未来方向 - 该研究首次将思维链推理与强化学习融入四足机器人的VLA框架,打破了“要么可解释、要么稳执行”的行业困境[21] - 结构化CoT推理是弥合语义-控制鸿沟的关键,显式推理过程提升了指令落地的稳定性和决策可解释性[23] - 两阶段训练范式兼顾了“冷启动效率”与“优化上限”,实现协同效应[23] - 多模态融合提升了机器人在复杂空间中的泛化能力[23] - 未来方向包括扩展动作空间以支持更精细操作、通过模型蒸馏与量化降低8B参数主干的推理延迟以适应实时交互,以及探索自监督学习以减少对标注数据的依赖[23]
最火VLA,看这一篇综述就够了
36氪· 2025-10-31 16:22
文章核心观点 - 视觉-语言-动作模型成为ICLR 2026的热点领域,相关投稿量从去年的个位数飙升至164篇,增长18倍[5] - VLA的核心是让机器人具备“听懂人话、看懂世界、动手干活”的能力,正成为AI领域极具吸引力的前沿阵地[5] - 学术界对VLA的定义趋于明确:必须使用经过大规模、互联网级别视觉-语言数据预训练的骨干模型,代表模型包括Google的PaLI-X及开源项目Llava、Florence-2等[5] VLA概念界定与区分 - VLA强调模型“基因”,必须继承自强大的视觉语言模型,具备通过图文预训练习得的语言理解、视觉泛化和任务迁移能力[5] - 与“多模态策略”区分:简单拼接独立视觉编码器和文本编码器的模型不应称为VLA[6] - 与大型行为模型区分:LBM强调在“大规模、多任务的机器人演示数据”上训练,而VLA强调预训练骨干;一个在机器人数据上微调的VLA可同时是LBM,但LBM不一定是VLA[6] VLA架构创新趋势 - 离散扩散模型成为新范式,可并行生成整个动作序列,减少前向传播次数,提高推理效率,在LIBERO评测中表现近乎饱和[7][10] - 动作分词器技术进展包括FASTer Tokenizer结合残差矢量量化,以及OmniSAT借助B样条曲线对动作建模,提升精度与稳定性[14][16][21] - 效率优化方法如HyperVLA采用超网络机制提升推理效率,AutoQVLA采用智能量化压缩模型体积,大幅降低硬件门槛[19][21] 机器人推理与学习能力提升 - 具身思维链模式让机器人先生成中间推理步骤再行动,增强计划与解释能力,在复杂场景中显著提升泛化能力[11] - 强化学习作为微调利器重新登场,代表作在LIBERO和SIMPLER上分别取得99%和98%的成功率[17][18] - 视频预测技术赋予VLA物理直觉,通过增加未来帧预测任务或微调视频生成大模型来提升对物理世界的理解[20][23] 评测基准与通用化挑战 - 新评测基准如《RoboCasa365》提供365种任务和超2000个厨房场景,《WorldGym》提出用生成式世界模型作为评测环境,推动研究走向更有意义的泛化能力[24][26] - 主流仿真评测存在“性能天花板”问题,模型仿真得分高但难以转化为现实能力,原因包括数据鸿沟、评测维度差异和资源迭代差距[30][34] - 通用化架构创新包括《X-VLA》使用软提示学习特定“适配器”,《XR-1》提出统一视觉-运动编码,《HIMOE-VLA》采用层级式混合专家架构以适应不同机器人硬件[27][29][34] 未来研究方向 - 数据质量重要性超过数据量,数据中的噪声、歧义和次优行为可能限制模型上限[31] - 上下文学习机制能否迁移到机器人领域,被认为是通用VLA的潜在突破口[31]
不管VLA还是WM世界模型,都需要世界引擎
自动驾驶之心· 2025-09-14 00:04
端到端自动驾驶定义 - 学习单一模型直接将原始传感器输入映射到驾驶场景并输出控制指令 取代传统模块化管道 [3] - 训练流程包括监督学习 模仿学习或强化学习 通过大量标注数据或奖励设计实现 [3] - 涵盖当前VLA和世界模型等技术方向 属于自动驾驶算法最广概念 [6] 技术发展路线 - 从20多年前黑白图像输入起步 经历条件模仿学习 泛化 可解释性网络等阶段 [8] - 当前处于1.5代端到端自动驾驶阶段 基于基础模型解决长尾问题 [10] - 分化出两大分支:世界模型分支(扩散管道/视频生成模型)和VLA分支(大型语言模型应用) [11] 世界模型分支技术 - 包含Drive Dreamer Cosmos Predict One和导航世界模型等具体应用 [11] - Gaia 2作为视频生成模型 利用多视图图像预测不同类型视频 提升驾驶安全性与自动化 [11] - 通过多模态动作预测实现真实感和多样性生成 [11] VLA分支技术 - Java LM采用"草图维基"方式增强驾驶场景理解 [11] - Lingo Tool和Job VRM利用基础模型提升准确性 但存在延迟较高问题 [11] - 通过大小模型协同工作预测多数情况 优化系统性能 [11] 部署挑战与数据需求 - 需要处理大量生产问题和工程工作 进入第二代发展阶段 [14] - 特斯拉FSD追踪器显示MPI指标年度增长 数据量增加使模型持续优化 [18] - 剩余20%长尾问题需海量数据 危险案例收集成本昂贵且可能危及生命 [18] 世界引擎解决方案 - 通过极端情况生成和安全关键场景构建 大幅降低数据收集成本 [21] - 包含数据引擎和算法引擎 生成大量训练场景并改进端到端算法 [24] - 通过环境交互与行为建模 实现从失败中学习并优化规划器 [21] 技术路径对比 - 世界模型概念覆盖范围更广但实施存在不确定性 [25] - VLA被视为更切合实际的技术路径 世界模型为终极目标 [25] - 需警惕概念包装与实际技术内容不符的情况 [25]
全球首个自动驾驶VLA综述重磅发布:VLA自驾模型全面拆解~
具身智能之心· 2025-07-03 16:22
自动驾驶范式演进 - 端到端自动驾驶模式将传感器输入直接映射到驾驶动作,架构为环境信息输入→端到端网络→驾驶动作,但存在可解释性差和难以处理长尾场景的问题 [3] - 用于自动驾驶的视觉语言模型引入语言理解和推理能力,架构为环境信息输入→VLM→推理链/多任务→非直接控制输出,提升了系统可解释性和泛化能力,但存在语言输出与实际控制脱节的行动鸿沟 [3] - 视觉-语言-行动模型是当前最前沿范式,在统一策略中融合视觉感知、语言理解和动作执行,架构为环境信息输入→多模态编码器→LLM/VLM→动作解码器→驾驶动作,能理解高级指令、推理复杂场景并自主决策 [3] VLA4AD架构范式 - 多模态输入包括视觉数据(从单前视摄像头发展到多摄像头环视系统)、其他传感器数据(激光雷达、雷达、IMU、GPS及本体感知数据)和语言输入(从直接导航指令演进到对话式推理和语音指令) [9] - 核心架构模块包含视觉编码器(使用DINOv2或CLIP等大型自监督模型)、语言处理器(使用LLaMA2或GPT系列模型并通过指令微调适应领域)和动作解码器(通过自回归令牌器、扩散模型头或分层控制器生成控制输出) [7][9] - 驾驶输出形式从低阶控制(如方向盘转角、油门刹车信号)演进为高阶规划(如轨迹或路径点),后者具有更好可解释性、拓展能力和长时程推理能力 [10][18] VLA模型发展阶段 - 阶段一(语言模型作为解释器)采用冻结视觉模型和LLM解码器生成场景描述,代表工作DriveGPT-4可生成高阶操纵标签或场景描述,但存在延迟问题和效率低下局限 [16][22] - 阶段二(模块化VLA模型)将语言作为主动规划组件,代表工作包括OpenDriveVLA生成可读中间路径点、CoVLA-Agent将动作Token映射到轨迹、DriveMoE动态选择子规划器、SafeAuto引入符号化交通规则验证计划 [19][22] - 阶段三(统一端到端VLA模型)构建单一网络直接映射传感器输入到控制信号,代表工作包括EMMA联合执行检测和规划、SimLingo/CarLLaVA通过行动构想技术耦合语言与轨迹、ADriver-I利用扩散技术预测未来画面 [20][22] - 阶段四(推理增强VLA模型)将LLM置于控制环路核心进行长时程推理,代表工作ORION结合记忆模块输出轨迹和解释、Impromptu VLA通过思维链对齐行动、AutoVLA融合CoT推理和轨迹规划 [21][22] 数据集与基准 - BDD100K/BDD-X提供10万个真实驾驶视频和7千个带文本解释片段,被CoVLA-Agent和SafeAuto等模型采用 [25][27] - nuScenes包含1000个场景的多传感器数据,是VLA4AD模型综合评估的重要平台 [25][33] - Bench2Drive是基于CARLA的闭环驾驶基准,包含44种场景和220条路线,DriveMoE通过混合专家架构在该基准领先 [25][33] - Reason2Drive提供60万个带思维链风格问答的视频-文本对,并引入一致性评估指标 [25][33] - Impromptu VLA专注边缘场景,包含8万个驾驶片段并配有专家轨迹和问答对,能显著提升闭环安全性 [25][33] - DriveAction包含2600个场景和1.62万个带动作标签的问答对,提供基于人类偏好决策的评估协议 [25][33] 挑战与未来方向 - 六大挑战包括鲁棒性与可靠性(语言模型幻觉和环境噪声问题)、实时性能(30Hz计算瓶颈和模型优化需求)、数据与标注瓶颈(三模态数据稀缺和合成数据局限)、多模态对齐(以摄像头为中心和融合技术不成熟)、多智能体社会复杂性(协作难题和交通语言缺失)以及领域自适应与评估(泛化能力不足和标准缺失) [30][31][32][34][35] - 五大未来方向包括构建基础驾驶大模型(GPT风格骨干网络)、开发神经-符号安全内核(结合神经网络灵活性和符号逻辑可验证性)、实现车队级持续学习(通过语言片段描述新情况)、建立标准化交通语言(定义规范意图集)以及提升跨模态社交智能(理解手势和声音等非语言线索) [36][38]