端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
机器之心·2026-01-14 15:18

系统核心创新 - 提出名为KnowVal的新型自动驾驶系统,通过感知模块与知识检索模块协同,实现视觉-语言推理能力,并构建集成世界模型与价值模型的规划器以实现价值对齐决策[4] - 将当前主流的视觉-语言-动作范式升级为开放三维感知-知识检索范式,通过感知和检索相互引导实现基础视觉-语言推理[7] - 系统各模块间保持显式结果和隐式特征共同传递,是可端到端微调的3D视觉-语言-动作框架[12] 技术框架与工作原理 - 检索引导的开放世界感知:通过专用感知和开放式三维感知,抽取常见与长尾实例的3D目标检测结果、实例特征及全场景占据栅格预测,并利用轻型VLM对抽象概念进行自然语言描述[9] - 感知引导的知识图谱检索:将感知信息自然语言化,对包含法律法规、道德原则、防御性驾驶原则的知识图谱进行检索,得到按相关性排序的知识条目[10] - 基于价值模型的轨迹规划:通过规划模块和世界模型多轮迭代,生成多条候选自车轨迹及其他物体运动预测,价值模型对每条候选轨迹和检索知识进行价值评估,最终选定规划轨迹[11] 知识体系构建 - 收集国家交通法律法规、防御性驾驶原则、道德准则及经验知识访谈等多样化驾驶资源,构建初始知识森林[15] - 利用大语言模型抽取实体并定义节点与边,形成结构化知识图谱,在推理时生成富含三维感知信息的自然语言查询进行检索[15] 价值模型与数据集 - 提供与现有端到端和VLA模型兼容的改造方式,通过引入对自车查询叠加的多条预设高斯噪声和多样性约束损失,使模型具备生成多样化候选轨迹的能力[18] - 构建大规模驾驶价值偏好数据集,包含16万个轨迹-知识对,每个对进行介于-1到1之间的价值评分标注,用于训练价值模型[19] 实验性能表现 - 将KnowVal框架应用于GenAD、HENet++与SimLingo三个基线模型,在nuScenes开环端到端驾驶基准上取得最低的驾驶碰撞率[21] - 在Bench2Drive闭环端到端驾驶基准上取得最高的驾驶分数和成功率,例如在SimLingo基线上应用KnowVal后,驾驶分数提升3.35至88.42,成功率提升1.76个百分点至69.03%[21][22] 定性分析案例 - 在编辑后的nuScenes真实数据场景中,测试系统路过积水时能否减速慢行以免溅到行人[25] - 在CARLA模拟器隧道场景中,测试系统是否会遵循“隧道内/实线车道不能变道”的法律法规,实验表明KnowVal能正确处理这些情况[25]