对比之后,VLA的成熟度远高于世界模型...
自动驾驶之心·2025-09-27 00:03

端到端自动驾驶技术格局 - 当前行业与学术界中90%以上采用分段式端到端方案,纯粹的视觉-语言-动作模型和世界模型非常罕见 [2] - 视觉-语言-动作模型代表包括高德地图模型、地平线SENNA模型和加州大学洛杉矶分校AutoVLA [2] - 世界模型代表包括上海AI实验室GenAD、中科慧拓GenAD、华为与浙江大学Drive-OccWorld以及理想汽车World4Drive [2] 性能测试方法与数据集 - 性能测试主要分为两类:在模拟器中使用合成数据进行闭环测试,以及在真实采集数据上进行开环测试 [4] - 开环测试无法获得预测指令执行后的反馈,常用评估指标为3秒内平均L2距离和3秒内平均碰撞率 [4] - 闭环仿真测试主要基于CARLA、nuPlan和NAVSIM平台,其中NAVSIM数据集来自nuPlan [4] - 常用数据集规模:nuScenes为5.5小时,Waymo为11小时,Argoverse2为4.2小时,nuPlan为120小时,而合成数据规模理论上无限 [3] 主要模型性能对比 - 基于nuScenes数据集的开环测试是当前最常见评估方式 [5] - 视觉-语言-动作模型阵营性能表现优于世界模型阵营,例如地平线SENNA模型在加入自车状态后L2平均距离为0.22米,3秒平均碰撞率为0.08% [5][6] - 世界模型相关论文多集中于2024年初,近期研究更多集中于生成长尾训练视频 [6] - 华为与浙江大学Drive-OccWorld在不同评估协议下表现差异显著,采用TemAvg协议时L2平均距离为0.47米,碰撞率为0.11% [5] 上海AI实验室GenAD模型 - 模型最大特色是训练数据完全来自互联网,绝大部分来自YouTube,无需任何标注 [7] - 公司认为使用标注数据的监督学习难以具备强泛化能力,主张采用海量无标注在线驾驶视频 [8][19] - 模型采用两级训练,基于扩散模型和Transformer,但需添加基于高精度地图和交通规则的任务头,因此不能算纯粹的世界模型 [26] 华为与浙江大学Drive-OccWorld模型 - 模型框架包含历史编码器、具有语义和运动条件归一化的记忆队列、世界解码器三个组件 [32] - 世界模型输出两个任务头:基于动作可控的占据栅格网络生成和基于占据的轨迹预测 [28] - 模型采用混合密度网络结合高斯混合模型,在输出部分引入不确定性,更接近强化学习范式 [30] - 端到端轨迹规划借鉴ST-P3的代价函数聚合图 [36] 理想汽车World4Drive模型 - 框架包含驾驶世界编码模块和规划模块,其中编码模块包括意图编码器和物理潜在编码器 [37] - 意图编码器对轨迹词典中的轨迹按终点进行K-means聚类得到意图点,结合正弦位置编码获得意图查询 [37] - 采用IDEA的Grounded SAM算法获得基于深度的语义分割图,该过程需要大量3D标注数据 [39] - 通过交叉注意力机制引入场景上下文信息,并通过多层感知机输出多模态轨迹 [41] 技术路线对比与部署考量 - 视觉-语言-动作模型技术成熟度远高于世界模型,且架构更加简洁 [43] - 世界模型经过传统融合激光雷达的感知算法增强后性能提升,但丧失了无需标注数据和泛化能力强的优点 [43] - 通常世界模型参数量在10亿以下,部署成本相对较低,但加入扩散模型后运算和存储资源消耗显著增加 [43]