文章核心观点 - 同济大学与理想汽车联合团队提出了一种名为SparseWorld-TC的全新轨迹条件稀疏占用世界模型,该模型通过创新的纯注意力驱动架构,摒弃了传统的鸟瞰图表示和离散令牌化技术,实现了端到端的4D占用预测,在nuScenes基准测试中取得了突破性性能,特别是在长时预测任务中展现出卓越的稳定性和准确性 [2][3][40] 自动驾驶世界模型的技术演进与核心挑战 - 世界模型是理解环境动态的核心框架,对于自动驾驶等AI系统至关重要,其发展经历了从基于物理规则到数据驱动方法的演进,基于占用的世界模型因直接适用性而备受关注 [6] - 现有世界模型方法存在三大局限性:表示层面依赖离散化导致信息损失;结构层面依赖鸟瞰图引入过强几何先验,限制了特征交互灵活性;生成范式层面,自回归方法存在误差累积,扩散方法计算成本高 [7] - 稀疏表示作为一种新兴技术路线,通过只对场景中实际存在的区域进行建模,显著降低了计算复杂度,并避免了离散化带来的信息损失,其应用符合驾驶场景本质稀疏的特性 [8] SparseWorld-TC的核心创新:架构设计与技术细节 - 整体架构采用纯注意力驱动设计,直接对占用世界进行端到端建模,避免了离散令牌化的表示能力限制和鸟瞰图的几何约束,并采用类似VGGT的前馈架构,在单次前向传播中预测未来占用,提升了推理效率 [9] - 模型采用基于锚点的稀疏占用表示方法,每个锚点由一组随机初始化的3D点和相关特征向量组成,特征向量为每个点预测偏移量和语义标签 [11][12] - 模型引入了轨迹条件机制,将自车的未来规划轨迹参数化为离散状态序列,为世界模型提供了重要的条件信号,使模型能够集成过去上下文和未来意图以生成物理一致的未来场景 [13][14][15][16] - 时空融合架构基于纯注意力机制,核心是完全注意力融合机制,通过交叉注意力、帧级自注意力和时态注意力块,实现传感器观测、占用先验和轨迹信息的高效融合,以捕获长距离时空依赖 [17][21][22] - 训练采用随机集成策略,在训练期间随机选择目标序列长度进行监督,使模型能够灵活适应不同的预测需求;损失函数结合了Chamfer距离损失和焦点分类损失,以平衡几何准确性和语义一致性 [23][24][26][27] 实验设计与评估体系 - 性能评估在Occ3D-nuScenes基准上进行,采用几何交并比和语义平均交并比指标,数据集包含1000个驾驶场景,训练/验证/测试分割为700/150/150 [29][31][32] - 模型配置分为Small和Large版本:Small版每帧600个锚点,每个锚点128个3D点,侧重效率;Large版每帧4800个锚点,每个锚点16个3D点,侧重精度;骨干网络分别使用ResNet-50和DINOv3-Base [32] - 主要实验结果显示,SparseWorld-TC-Large在平均语义mIoU上达到26.42%,比先前最优方法COME提升18.7%;平均几何IoU达49.21%,提升11.7%;小规模版本推理速度达9.35 FPS,适合实时应用 [33] - 在长时预测能力分析中,将预测期延长至8秒,SparseWorld-TC-Large的平均mIoU和IoU分别达到22.33%和45.35%,显著优于对比方法,且在4秒后的预测中性能衰减更慢,证明了长时预测的稳定性 [34][35] - 在基于轨迹条件的预测任务中,模型能够根据不同的未来轨迹(如直行或左转)精确预测场景的演化,并保持场景几何信息的时空一致性 [36][39] 扩展应用:前馈高斯预测与传感器级生成 - SparseWorld-TC的架构具备扩展到传感器级观测生成的潜力,通过集成额外的MLP解码器来预测3D高斯分布的参数,并利用3D高斯溅射技术进行可微分渲染,将预测的高斯参数转换为前视图图像 [41][42][43] - 该扩展技术具备自监督学习能力,可减少对大量标注数据的依赖;支持多模态输出;结合3D高斯溅射的高效渲染,整个系统具备实现实时预测的潜力 [51] - 扩展应用前景包括自动驾驶仿真、预测性规划以及数据增强 [51] - 当前扩展仍面临计算复杂度、对高度动态场景的建模能力以及多传感器融合等挑战 [53]
理想一篇OCC世界模型:全新轨迹条件稀疏占用世界模型SparseWorld-TC
自动驾驶之心·2025-12-16 11:16