Workflow
SGDrive
icon
搜索文档
探寻世界模型最优解!SGDrive:层次化世界认知框架,VLA再升级(理想&复旦等)
自动驾驶之心· 2026-01-14 08:48
文章核心观点 - 复旦大学、上海创智学院、理想汽车、同济大学和萨里大学联合提出了一种名为SGDrive的新型自动驾驶框架,该框架通过将结构化和层次化的驾驶世界知识整合到视觉-语言模型中,旨在解决现有端到端方法在复杂场景中缺乏显式因果推理和高层理解的问题,从而提升自动驾驶的安全性和可靠性 [2][3][12][15] 背景回顾 - 端到端自动驾驶技术从UniAD、VAD到SparseDrive不断演进,但缺乏显式因果推理和高层场景理解,在复杂长尾场景中存在局限 [6] - 大语言模型和视觉-语言模型的出现,为整合先验知识和复杂推理能力以缓解传统方法不足提供了可能 [6] - 早期尝试将VLM用于驾驶规划存在局限:直接生成轨迹坐标存在精度损失,而基于扩散模型的解码器方法则未能解决VLM在空间感知、关键信息辨别和未来状态预测方面的根本缺陷 [6][9][10][11] 核心方法:层次化世界认知框架 - **整体设计理念**:SGDrive通过引入一组特殊的世界查询token,引导VLM关注驾驶相关的关键知识并预测其未来演变,从而增强VLM的3D空间感知能力 [15] - **问题定义**:框架建模为两个互补子问题:提取代表性世界知识和预测未来世界状态 [16] - **世界查询编码器**:查询token并非随机初始化,而是通过融合自车状态、历史轨迹和视觉特征进行初始化的“先验感知”查询,能有效捕获场景上下文 [17][20][21] - **层次化世界知识表征**:受人类驾驶认知启发,从三个维度组织知识: - **场景几何布局感知**:专注于感知和预测场景的3D占据结构,回答“位置能否通行”的问题,并使用VAE解码器进行重建,通过重采样策略解决场景稀疏性挑战 [22][23][24] - **安全关键智能体检测**:基于与自车轨迹的交互可能性和可见性,选择性关注可能影响驾驶安全的车辆、行人和骑行者,而非所有对象,并预测其当前和未来的3D状态 [25] - **短期驾驶目标预测**:预测约4秒后的自车目标姿态,为轨迹规划提供高层语义指导,确保驾驶行为的完整性和一致性 [28][30] - **结构化块状注意力掩码**:为防止不同层次知识间的信息泄漏,采用块状注意力机制,允许同类查询互相关注,但禁止跨类别查询互相关注,以保持表征的独立性和准确性 [31][33] - **扩散规划器**:利用扩散Transformer,以学习到的层次化世界知识为条件,从带噪声的初始化中生成平滑、连续的未来轨迹点序列 [34][35] - **两阶段训练策略**: - **阶段一(监督微调)**:训练VLM联合预测视觉问答答案、场景几何、安全关键智能体和短期驾驶目标 [36][37] - **阶段二(扩散规划器训练)**:冻结VLM作为世界模型,专门训练扩散规划器生成轨迹,实现“理解世界”与“生成动作”的解耦 [36][39] 实验结果 - **主要结果**: - 在NAVSIM v1测试集上,基于InternVL3-2B骨干的SGDrive在仅使用相机输入的方法中达到了87.4 PDMS的SOTA性能,超越了更大的通用VLM(如InternVL3-8B)4.1 PDMS,也超越了之前SOTA的驾驶VLM方法Recogdrive-8B 0.6 PDMS [39] - 在关键的碰撞相关指标NC和TTC上取得最佳分数,证明了其安全性 [3][39] - 在与强化学习框架集成后,PDMS进一步提升至91.1,超越所有现有方法 [40] - 在NAVSIM v2测试集上,SGDrive达到86.2 EPDMS,超越之前最先进的ReCogDrive-8B 2.6个百分点,并在安全指标上保持领先 [40][41] - **消融实验**: - **世界知识预测有效性**:仅表征当前多层世界状态使PDMS提升2.5个百分点,增加未来世界预测后性能进一步提升至85.5 PDMS,表明预测未来演变能增强安全意识和规划效率 [42] - **世界查询子成分有效性**:逐步添加场景、智能体、目标和未来状态信息来引导规划器,PDMS从86.0提升至87.4,且安全指标(如NC、TTC)获得改善 [43] - **结构化注意力掩码有效性**:与因果注意力相比,结构化注意力将EP从80.1提升至81.2,整体PDMS从87.1提升至87.4,产生了更清晰的任务特定嵌入和更真实的驾驶行为 [44][45] - **定性结果**: - 与RecogDrive对比显示,SGDrive在复杂交互和弯道场景中能生成更安全、无碰撞的轨迹 [46] - 可视化表明模型预测的层次化世界知识与真值标注高度对齐 [48] - 模型能根据自车运动状态(如直行高速、转弯)自适应调整感知焦点和范围,体现了对驾驶场景的有效理解 [50][51] 结论 - SGDrive框架通过将驾驶理解分解为场景-智能体-目标的层次结构,并预测其未来演化,显式地组织了VLM的表征学习 [52] - 结合结构化注意力掩码和基于DiT的规划器,该方法在NAVSIM基准测试中实现了安全驾驶方面的最先进性能 [52]