Workflow
VLM(视觉 - 语言模型)
icon
搜索文档
探寻世界模型最优解!SGDrive:层次化世界认知框架,VLA再升级(理想&复旦等)
自动驾驶之心· 2026-01-14 08:48
文章核心观点 - 复旦大学、上海创智学院、理想汽车、同济大学和萨里大学联合提出了一种名为SGDrive的新型自动驾驶框架,该框架通过将结构化和层次化的驾驶世界知识整合到视觉-语言模型中,旨在解决现有端到端方法在复杂场景中缺乏显式因果推理和高层理解的问题,从而提升自动驾驶的安全性和可靠性 [2][3][12][15] 背景回顾 - 端到端自动驾驶技术从UniAD、VAD到SparseDrive不断演进,但缺乏显式因果推理和高层场景理解,在复杂长尾场景中存在局限 [6] - 大语言模型和视觉-语言模型的出现,为整合先验知识和复杂推理能力以缓解传统方法不足提供了可能 [6] - 早期尝试将VLM用于驾驶规划存在局限:直接生成轨迹坐标存在精度损失,而基于扩散模型的解码器方法则未能解决VLM在空间感知、关键信息辨别和未来状态预测方面的根本缺陷 [6][9][10][11] 核心方法:层次化世界认知框架 - **整体设计理念**:SGDrive通过引入一组特殊的世界查询token,引导VLM关注驾驶相关的关键知识并预测其未来演变,从而增强VLM的3D空间感知能力 [15] - **问题定义**:框架建模为两个互补子问题:提取代表性世界知识和预测未来世界状态 [16] - **世界查询编码器**:查询token并非随机初始化,而是通过融合自车状态、历史轨迹和视觉特征进行初始化的“先验感知”查询,能有效捕获场景上下文 [17][20][21] - **层次化世界知识表征**:受人类驾驶认知启发,从三个维度组织知识: - **场景几何布局感知**:专注于感知和预测场景的3D占据结构,回答“位置能否通行”的问题,并使用VAE解码器进行重建,通过重采样策略解决场景稀疏性挑战 [22][23][24] - **安全关键智能体检测**:基于与自车轨迹的交互可能性和可见性,选择性关注可能影响驾驶安全的车辆、行人和骑行者,而非所有对象,并预测其当前和未来的3D状态 [25] - **短期驾驶目标预测**:预测约4秒后的自车目标姿态,为轨迹规划提供高层语义指导,确保驾驶行为的完整性和一致性 [28][30] - **结构化块状注意力掩码**:为防止不同层次知识间的信息泄漏,采用块状注意力机制,允许同类查询互相关注,但禁止跨类别查询互相关注,以保持表征的独立性和准确性 [31][33] - **扩散规划器**:利用扩散Transformer,以学习到的层次化世界知识为条件,从带噪声的初始化中生成平滑、连续的未来轨迹点序列 [34][35] - **两阶段训练策略**: - **阶段一(监督微调)**:训练VLM联合预测视觉问答答案、场景几何、安全关键智能体和短期驾驶目标 [36][37] - **阶段二(扩散规划器训练)**:冻结VLM作为世界模型,专门训练扩散规划器生成轨迹,实现“理解世界”与“生成动作”的解耦 [36][39] 实验结果 - **主要结果**: - 在NAVSIM v1测试集上,基于InternVL3-2B骨干的SGDrive在仅使用相机输入的方法中达到了87.4 PDMS的SOTA性能,超越了更大的通用VLM(如InternVL3-8B)4.1 PDMS,也超越了之前SOTA的驾驶VLM方法Recogdrive-8B 0.6 PDMS [39] - 在关键的碰撞相关指标NC和TTC上取得最佳分数,证明了其安全性 [3][39] - 在与强化学习框架集成后,PDMS进一步提升至91.1,超越所有现有方法 [40] - 在NAVSIM v2测试集上,SGDrive达到86.2 EPDMS,超越之前最先进的ReCogDrive-8B 2.6个百分点,并在安全指标上保持领先 [40][41] - **消融实验**: - **世界知识预测有效性**:仅表征当前多层世界状态使PDMS提升2.5个百分点,增加未来世界预测后性能进一步提升至85.5 PDMS,表明预测未来演变能增强安全意识和规划效率 [42] - **世界查询子成分有效性**:逐步添加场景、智能体、目标和未来状态信息来引导规划器,PDMS从86.0提升至87.4,且安全指标(如NC、TTC)获得改善 [43] - **结构化注意力掩码有效性**:与因果注意力相比,结构化注意力将EP从80.1提升至81.2,整体PDMS从87.1提升至87.4,产生了更清晰的任务特定嵌入和更真实的驾驶行为 [44][45] - **定性结果**: - 与RecogDrive对比显示,SGDrive在复杂交互和弯道场景中能生成更安全、无碰撞的轨迹 [46] - 可视化表明模型预测的层次化世界知识与真值标注高度对齐 [48] - 模型能根据自车运动状态(如直行高速、转弯)自适应调整感知焦点和范围,体现了对驾驶场景的有效理解 [50][51] 结论 - SGDrive框架通过将驾驶理解分解为场景-智能体-目标的层次结构,并预测其未来演化,显式地组织了VLM的表征学习 [52] - 结合结构化注意力掩码和基于DiT的规划器,该方法在NAVSIM基准测试中实现了安全驾驶方面的最先进性能 [52]
36氪精选:辅助驾驶人才争夺战:一把手下场挖人VS法务连续起诉
日经中文网· 2025-06-06 15:55
车企AI辅助驾驶人才争夺战 - 中国车企如华为、理想、Momenta等对AI辅助驾驶人才需求激增,行业竞争激烈导致高端人才被哄抢,理想汽车CEO透露核心人员平均接到20+猎头电话[6][9][16] - 人才流动伴随竞业纠纷,理想汽车曾起诉跳槽员工并达成千万元级别和解,行业普遍采用竞业协议延缓技术外溢[7][8][14] - 比亚迪、小米等车企积极补足辅助驾驶能力,比亚迪自研城市NOA方案并挖角新势力背景人才,小米招募Wayve科学家加入团队[12][13] 技术路线演进与行业格局 - 辅助驾驶技术从传统规则方案转向"端到端"模型,并探索VLM/VLA多模态大模型,头部公司如理想、华为、Momenta装机量分别突破50万/30万辆[9][11][24] - 理想汽车技术路线快速迭代,从依赖地图方案升级至VLA模型,联合清华团队开发双系统方案并积累AI大模型量产经验[11][24] - 特斯拉停止公开FSD技术路径后,中国车企自主探索,华为乾崑智驾和小鹏"世界基座模型"成为代表性方案[10][11] 行业竞争策略与乱象 - 比亚迪发起辅助驾驶平权运动,将高速NOA功能下放至7万元级车型并通过补贴降至5.58万元,倒逼行业技术普及[12][17] - 部分车企通过"白盒"代码泄露获取技术捷径,供应商核心算法被非授权扩散至其他车企,导致人才携带代码跳槽牟利[18][19][20] - 头部企业采取项目保密措施,理想要求VLA项目员工签署协议且离职需脱敏6个月,华为亦有类似保密机制[14][16] 技术挑战与未来方向 - "端到端"模型存在场景泛化局限,理想提出VLA模型增强物理世界交互能力,但面临人才稀缺与工程化挑战[23][24] - 行业下一阶段技术重心聚焦生成式AI世界模型仿真器和强化学习应用,Momenta已率先在规控环节应用AI模型[24][25] - 跟随型企业依赖技术外溢难持续,原创性思考与工程能力成为竞争分水岭[25]
「智驾」人才争夺战:帮新员工支付前司百万竞业赔偿
36氪· 2025-05-23 21:58
车企AI辅助驾驶人才争夺战 - 行业核心人才遭哄抢,理想、华为、Momenta成为被挖角最严重的公司,理想核心人员每人接到20+猎头电话[3][4][6] - 竞业协议诉讼频发,理想起诉跳槽员工案例涉及千万元赔偿,南方车企员工赔付超百万元[4][5] - 技术保密手段升级,理想要求VLA项目员工签署保密协议,离职需脱敏6个月;华为采取类似措施[12][14] 技术路线演进与竞争格局 - 技术路径从规则方案转向端到端模型,VLM/VLA多模态大模型成为新方向[6][9][24] - 头部企业技术布局: - 理想尝试4种技术路线(城市NOA/轻地图/端到端+VLM/VLA),与清华合作开发双系统方案[9][25] - 小鹏采用"世界基座模型"训练方式[10] - 华为乾崑智驾装机量突破50万,Momenta方案搭载量近30万辆[10] - 特斯拉停止公开FSD技术细节后,国内企业进入自主探索阶段[8][23] 车企人才战略与市场动态 - 传统车企加速布局: - 比亚迪推出5.58万元级辅助驾驶车型,下半年计划推出自研城市NOA[11] - 比亚迪技术院高层亲自招揽新势力背景人才,团队已吸纳多名竞品员工[11] - 小米引进Wayve科学家陈龙,强化辅助驾驶团队[11] - 人才流动双向性: - 理想曾为关键人才支付数百万竞业赔偿[12] - 端到端技术导致理想精简团队,部分人才外溢[12] 行业技术挑战与发展趋势 - 当前技术局限性: - 端到端方案存在场景泛化难题[23] - VLA模型面临人才稀缺、数据获取、问题定义等量产挑战[25] - 未来技术重点: - 生成式AI世界模型仿真器[25] - 强化学习在规控/仿真领域应用[25] - Momenta已率先在预测/规控环节应用AI模型和强化学习[26] 行业生态与潜在问题 - 技术泄露现象严重,存在代码被员工携带跳槽或出售的情况[18] - 部分企业通过"白盒"获取供应商代码进行拼凑开发,与头部"好用"方案存在差距[19][20] - 行业面临工程化能力与AI不确定性的双重挑战,需原创性思考突破技术迷雾[23][26]