Workflow
nuScenes数据集
icon
搜索文档
哼哧哼哧搞了小半年,小结一下这段时间世界模型的学习成果
自动驾驶之心· 2025-12-27 10:07
世界模型的概念与分类 - 世界模型并非单一模型或范式,而是多个不同研究方向的总称,需要仔细辨析其具体含义 [3] - Jurgen Schmidhuber在2018年提出的世界模型定义为“a mental model of the world”,即世界在大脑中的映射,它关注图像等输入在大脑中形成的概念与关系,并需反映物体在空间和时间上的关系 [4] - Yann LeCun提出的世界模型强调常识知识,其作用不仅在于预测未来结果,还能填补时空上的缺失信息 [7] - 生成式世界模型是对真实世界的物理建模,关注对世界的直接仿真与重构,评价标准通常使用SSIM等指标,这与关注抽象概念联系、以完成任务为标准的心理世界模型有本质区别 [11] - 目前尚无定论何种模型是真正的世界模型,生成式模型模仿GPT思路,认为海量数据能涌现智能;Jurgen的模型是对基于模型的强化学习的重新包装,但面临真实世界动作难以获取的局限;LeCun的模型则缺乏对动作的建模,导致任务迁移困难 [12] 自动驾驶轨迹预测任务设定 - 研究使用nuScenes数据集进行开环评估,该数据集包含1000段、每段20秒的驾驶场景,采集自波士顿和新加坡,涵盖复杂交通状况,总计约140万张相机图像、39万次激光雷达扫描和140万次毫米波雷达扫描 [13] - 轨迹预测任务要求模型根据6个摄像头的视觉信息和指令,预测车辆未来轨迹,关键评估指标包括L2距离和碰撞率 [14] - L2距离指标计算预测轨迹与真实轨迹之间各航点的平均欧氏距离,单位为米,数值越低越好 [14] - 碰撞率指标通过检查预测轨迹在3秒内是否与标注物体发生几何重叠来计算,以百分比表示,数值越低越好 [15] 基于世界模型的轨迹预测方法:LAW - 论文《Enhancing End-to-End Autonomous Driving with Latent World Model》提出了一种极简的世界模型方法,仅通过预测下一时刻的潜变量来增强轨迹预测 [17] - 方法使用编码器将6个摄像头的图像编码为36个视觉标记,并以航点作为条件来预测下一时刻的潜变量 [19] - 框架包含感知无关和感知相关两种编码器结构,以感知无关为例,流程为图像特征 -> 潜变量 -> 航点,航点解码器为每个样本生成三条轨迹,并根据指令选择正确轨迹 [20][22] 基于世界模型的轨迹预测方法:World4Drive - 论文《World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model》对LAW进行了改进 [23] - 核心改进包括:将轨迹离散化为8192条预设轨迹;使用k-means算法为每个指令构建6个意图点,进行粗筛;使用潜变量编码器结合时空信息进一步精炼轨迹 [23] - 潜变量编码器通过3D空间编码为图像标记添加深度信息,并通过跨注意力机制聚合时间信息,生成丰富的世界潜表征 [24][27] - 规划阶段通过动作编码将意图转化为对应动作,并构建意图感知的世界模型进行预测,在推理时使用一个评分网络选择最佳模型 [29][30][31] - 总损失函数由语义损失、重构损失、评分损失和轨迹损失加权组成 [33] 模型性能对比与分析 - 在nuScenes基准测试中,World4Drive在3秒平均L2距离上达到0.50米,平均碰撞率为0.16%,其性能优于或接近LAW等先进方法 [36] - 消融实验表明,同时使用深度信息、语义信息、世界模型和意图感知机制的完整模型(ID 6)能取得最佳性能(L2: 0.50米, 碰撞率: 0.16%) [37] - 实验证明,增强的语义信息对降低L2距离和碰撞率均有帮助,而仅使用意图点机制而不结合其他改进则效果不佳 [39]