Workflow
DiffusionDrive
icon
搜索文档
摸底地平线HSD一段式端到端的方案设计
自动驾驶之心· 2026-01-13 18:14
文章核心观点 - 地平线公司提出的两篇关于一段式端到端自动驾驶方案(HSD)的核心文章,即DiffusionDrive和ResAD,为行业提供了重要的技术思路和启发 [2][3] - DiffusionDrive的核心贡献在于其基于锚点(anchor-based)的轨迹生成方法,旨在降低训练难度并提升推理实时性 [4][8][10] - ResAD的核心贡献在于其残差监督设计,通过预测未来轨迹与惯性外推轨迹之间的残差,使模型更专注于学习驾驶行为的多样性,有效应对数据分布不平衡问题 [11][12][17] DiffusionDrive方案总结 - **整体架构**:方案整体架构可分为三部分:感知信息、导航信息和轨迹生成 [6] - **感知信息**:核心是将感知任务的信息表征传递给规划器,一段式方案可采用稠密(dense)的BEV特征图或稀疏(sparse)的实例特征等不同玩法,通常结合公司现有技术栈适配 [6] - **导航信息**:实践中确保模型遵循正确导航路线极具挑战性,特别是在复杂路况(如上海)下,算法设计需考虑导航平台、信息丰富度及定位能力等多方面因素 [7] - **轨迹生成**:采用“截断扩散”(Truncated Diffusion)方法,基于人类驾驶行为存在固定模式的观察 [8] - 具体流程:1) 从训练集中通过K-Means聚类出N个代表常见驾驶行为的轨迹序列作为锚点;2) 训练时对这些锚点轨迹施加较弱的噪声,从而减少去噪所需的步数;3) 训练时计算与真值轨迹最接近的锚点的去噪轨迹损失,并为每个锚点预测存在性 [9] - **方案优势**:基于锚点的轨迹生成方法能降低训练收敛难度,减少推理时的去噪次数需求,并且可根据算法设计锚点数量以控制推理成本 [8][9][10] - **潜在疑问**:文章未涉及系统时序模块,因此轨迹在时序上的稳定性如何保证存疑 [10] ResAD方案总结 - **核心设计**:方案最有意思的部分是残差设计,模型不直接生成未来轨迹,而是预测未来轨迹与基于惯性外推的未来轨迹之间的残差 [12] - **残差正则化**:由于距离当前时刻越远,残差通常越大,因此需要对时序上的残差进行正则化处理,以压缩其区间 [13] - **设计优势**:残差监督能使不同未来时刻的轨迹分布更一致,这种一致性非常有益:在损失计算上,轨迹预测误差不会被距离自车较远的点过度影响;在学习难度上,模型更不易在数据分布不平衡的情况下“偷懒” [14][17] - **惯性参考扰动**:考虑到残差设计,其生成过程中的噪声扰动方式也不同,噪声直接作用于初始速度,并通过控制横向(lat)和纵向(lon)的噪声大小来调整模型对不同方向的学习难度和关注程度,会设置K种噪声以供推理时按需选择 [15] - **轨迹排序器(Ranker)**:方案提到了轨迹选择器,将top-k的预测轨迹编码作为查询(Q),环境信息(感知和导航信息)作为键(K)和值(V),通过Transformer处理,同时加入自车状态(ego status)的嵌入,来预测多个可自定义的度量分数(metric scores) [16] - **方案评价**:正则化的残差监督令人印象深刻,它将惯性部分从预测中剥离,使模型专注于真正的多样性部分,有效对抗了数据采集(数采)中大量匀速行驶数据导致的不平衡分布问题 [17] - **改进建议**:轨迹排序器部分解答了关于DiffusionDrive轨迹稳定性的疑问,但可以进一步设计为时序模块,以提升选择的稳定性 [17]
刷完了端到端和VLA新工作,这9个开源项目最值得复现......
自动驾驶之心· 2026-01-10 11:47
文章核心观点 - 文章精选了2025年高价值的自动驾驶开源项目,其筛选标准基于代码可获取性、项目活跃度及GitHub Star数量,旨在为快速上手端到端自动驾驶提供从数据清洗、训练配方到闭环评测的全套工程参考方案[4][5] 开源项目概览 - **DiffusionDrive**: 由华中科技大学与地平线联合发布,通过引入多模态驾驶锚点与截断扩散日程,将扩散模型的去噪步骤简化为2-4步,实现了45 FPS的实时性能,并在NAVSIM基准上取得88.1的PDMS分数[6][8] - **OpenEMMA**: 由德克萨斯农工大学、密歇根大学等多所高校联合发布,通过引入Chain-of-Thought推理机制,在多种现有多模态大语言模型上提升复杂场景下的泛化能力,无需从头训练巨量参数[11] - **Diffusion-Planner**: 由清华大学、中国科学院自动化研究所等机构联合发布,基于Transformer的扩散模型生成多模态轨迹,解决了模仿学习的“平均解”困境,在nuPlan大规模闭环基准上取得领先性能,并在200小时的实车配送数据集上验证了其适应性[14] - **UniScene**: 由上海交通大学、东方理工大学宁波数字孪生研究院等机构联合发布,提出以占据为统一中间表达的多模态生成框架,通过“布局→占据→多模态数据”的渐进式生成机制,同步产出视频、点云与占据标注,降低数据制备成本[15][16] - **ORION**: 由华中科技大学与小米汽车联合发布,提出统一对齐视觉、推理与动作空间的框架,通过QT-Former聚合历史信息并利用LLM输出“规划token”,在Bench2Drive闭环评测中显著提升了驾驶得分与成功率[18] - **FSDrive**: 由西安交通大学、高德地图与阿里巴巴达摩院联合发布,提出“用画面思考”的视觉化推理范式,训练统一的VLA模型预测包含结构化先验的未来场景画面,并在nuScenes、NAVSIM等基准上提升了轨迹精度与安全性[21] - **AutoVLA**: 由加利福尼亚大学洛杉矶分校发布,提出将连续轨迹离散化为物理可行的动作token的自回归生成式框架,模型通过监督微调和强化学习微调,在nuPlan、Waymo等多个基准上验证了其竞争力[24] - **OpenDriveVLA**: 由慕尼黑工业大学与慕尼黑大学发布,是一个开源的端到端驾驶VLA模型,采用分层视觉-语言对齐方法,在nuScenes数据集上验证了其在开放环路规划与驾驶问答任务上的有效性[26] - **SimLingo**: 提出了一个多任务联合训练框架,旨在实现驾驶行为、视觉语言理解与语言-动作一致性三者的统一对齐,作为CARLA Challenge 2024的获胜方案之一,在Bench2Drive等闭环评测中达到领先水平[29] 项目亮点与趋势 - **技术焦点**: 多个项目聚焦于解决端到端自动驾驶中感知与规划间的模态断层问题,通过引入结构化先验、视觉化推理或统一语义空间等方法进行融合[8][18][21][26] - **性能优化**: 项目致力于在保持或提升规划质量的同时优化实时性能,例如DiffusionDrive通过简化扩散步骤实现45 FPS的实时推理[8] - **数据与成本**: 针对高质量数据获取成本高昂的瓶颈,出现了如UniScene这类专注于多模态数据合成的框架,以降低下游任务的数据制备投入[16] - **框架轻量化**: 部分项目如OpenEMMA,通过改进推理机制而非增加参数量,旨在降低算力与数据门槛,加速大模型在自动驾驶领域的落地[11] - **工程价值**: 文章强调这些开源项目提供了可复用的工程模板、完整训练配方和评测方案,是开发者构建技术直觉和快速上手的“工程积木”[4][31]
摸底地平线HSD一段式端到端的方案设计
自动驾驶之心· 2025-12-30 08:28
文章核心观点 - 文章对地平线公司提出的两篇关于一段式端到端自动驾驶方案的核心论文进行了技术解读,重点分析了DiffusionDrive和ResAD两篇工作的核心思想、架构设计及技术亮点,认为这些工作为行业从业者提供了重要启发 [2][3][18] DiffusionDrive方案总结 - 整体架构可分为感知信息、导航信息和轨迹生成三部分 [6] - 感知信息部分的核心是将感知任务的信息表征传递给规划器,一段式方案可采用稠密BEV特征图或稀疏实例特征等不同玩法 [6] - 导航信息的融合在实践中挑战巨大,特别是在复杂路况下,算法设计需结合具体导航平台、信息丰富度和定位能力 [7] - 轨迹生成部分的核心创新是“Truncated Diffusion”方法,其灵感源于人类驾驶行为具有固定模式这一观察 [8] - 该方法首先从训练集中通过K-Means聚类出N个描述常见驾驶行为的轨迹序列作为锚点 [9] - 在训练中对这些锚点轨迹进行弱加噪,从而降低去噪所需的步数,减少了训练收敛难度和推理时的去噪次数需求 [8][9] - 训练时计算与真值轨迹最接近的锚点对应的去噪轨迹损失,并预测每个锚点的存在性 [9] - 该锚点式轨迹生成方法降低了训练难度并提高了推理实时性,但文章未涉及系统时序模块以保障轨迹稳定性 [10] ResAD方案总结 - 整体架构的核心创新在于残差设计,模型不直接生成未来轨迹,而是预测未来轨迹与惯性外推轨迹之间的残差 [12] - 由于距离当前时刻越远残差越大,需要对时序上的残差进行正则化处理,以压缩其区间 [13] - 正则化后的残差分布在不同未来时刻表现得更一致,这有助于模型学习,避免了预测误差被远距离点过度影响,也缓解了数据分布不平衡下的模型“偷懒”问题 [14] - 在生成过程中,噪声被直接施加在初始速度上,通过控制横向和纵向噪声的不同大小,可以调整模型对不同方向的学习难度和关注程度 [15] - 方案设置了K种噪声,推理时可根据算力需求和对多模态的依赖程度选择不同的K值 [15] - 方案包含一个轨迹选择器,将top-k的轨迹预测编码作为查询,环境信息作为键和值,结合自车状态嵌入,通过Transformer预测多个自定义的度量分数,以选择最佳轨迹 [16] - 残差监督设计将惯性部分从预测中剥离,使模型能更专注于学习驾驶行为的真正多样性部分,有效对抗了数据采集过程中匀速数据过多导致的不平衡分布问题 [17] - 轨迹选择器部分回答了关于轨迹稳定性的部分疑问,但仍有改进空间,例如可进一步设计为时序结构以提升选择的稳定性 [17]
DiffusionDriveV2核心代码解析
自动驾驶之心· 2025-12-28 17:23
DiffusionDriveV2模型整体架构 - 模型是一个用于端到端自动驾驶的强化学习约束截断扩散模型,整体架构包括环境编码、轨迹规划、模式选择等模块 [3] - 环境编码部分融合了来自摄像头和激光雷达的BEV特征以及自车状态信息,其中BEV特征经过上采样和下采样处理,自车状态通过编码器处理,两者拼接后作为后续处理的键值对 [5][6] - 解码部分参考了目标检测中的DETR思想,使用查询机制,输出被分割为轨迹查询和智能体查询,用于后续的轨迹规划和交互 [7] 轨迹规划模块核心技术 - 轨迹规划模块利用多尺度BEV特征,通过上采样和特征拼接,增强空间信息的利用 [8] - 采用基于锚点的扩散模型进行轨迹生成,首先通过K-Means聚类从真实轨迹数据中生成一系列轨迹锚点,然后在锚点上加入经过设计的高斯噪声以启动扩散过程 [9][10][11] - 将带噪声的轨迹锚点通过位置编码转换为查询向量,并与时间编码、BEV特征、智能体查询特征以及自车查询特征进行多轮交叉注意力计算,以融合多源信息 [12][13][14][15][16][17] - 融合后的轨迹特征通过一个前馈网络,并利用时间特征进行尺度和偏移调制,最终预测出分类分数和去噪后的轨迹偏移量,该偏移量与原始噪声轨迹相加得到最终预测轨迹 [18][19][20][21][22] 模式选择与轨迹评估机制 - 模型包含一个模式选择器,用于从多个生成的轨迹模态中做出最终决策 [23] - 在轨迹生成(反向去噪)过程中,记录网络所有中间去噪结果以及最终输出 [25] - 使用一个综合评分器对生成的所有模态轨迹进行评估,评分维度包括安全性、舒适性、规则遵守、进度和物理可行性,并通过加权平均计算综合分数 [27] - 安全性检查包括碰撞检测和驶出道路判断,舒适性评估加速度和曲率连续性,规则遵守评估交通灯和车道保持,进度评估是否到达目标,物理可行性检查动力学约束 [27] 强化学习训练与优化策略 - 提出锚点内GRPO强化学习优化方法,在每个轨迹锚点对应的组内进行策略优化,以保持多模态能力同时提升轨迹质量,其损失函数涉及对去噪过程概率的对数求和与优势函数的加权 [28] - 优势函数通过计算组内奖励的相对均值和标准差进行估计,无需额外价值模型,并且通过只保留优于真实轨迹的样本进行对比学习来定义“好”的轨迹 [28][29] - 对优势函数进行截断处理,将所有负优势设为0,并对发生碰撞的轨迹施加-1的强惩罚,以提供清晰一致的学习信号 [30] - 在训练损失中结合了强化学习损失和模仿学习损失,以防止过拟合并保证通用驾驶能力 [39] 噪声设计与损失函数 - 针对轨迹近端与远端尺度不一致的问题,创新性地提出使用乘性高斯噪声替代传统的加性噪声,通过一个纵向和一个横向的乘法噪声因子来调整轨迹点,从而保持探索轨迹的平滑性和结构完整性 [33] - 在训练阶段引入探索噪声,在验证阶段使用确定性推理,并详细计算了每一步噪声对应的对数概率 [37][38] - 总体训练损失由轨迹恢复损失和分类置信度损失两部分组成,通过权重系数进行平衡 [42] - 轨迹恢复损失采用L1损失函数,分类损失使用带权重的焦点损失函数 [41][43]
时隔一年DiffusionDrive升级到v2,创下了新纪录!
自动驾驶之心· 2025-12-11 11:35
核心观点 - 华科王兴刚教授团队提出DiffusionDriveV2,通过引入强化学习解决了其前代模型DiffusionDrive在端到端自动驾驶轨迹规划中面临的“多样性与持续高质量”两难困境 [1][3] - 该方法创新性地结合了锚点内GRPO、锚点间截断GRPO与尺度自适应乘法探索噪声,在保留多模态生成能力的同时,显著提升了轨迹的整体输出质量与安全性 [4][12] - 在NAVSIM v1和v2数据集的闭环评估中,DiffusionDriveV2结合ResNet-34主干网络取得了当前最优性能,PDMS分别达到91.2和85.5,创下新纪录 [4][33] 技术背景与问题 - 端到端自动驾驶(E2E-AD)直接从原始传感器输入学习驾驶策略,是当前发展浪潮 [5] - 传统单模态规划器仅回归单一轨迹,无法提供备选方案;基于选择的方法使用静态候选轨迹库,灵活性有限 [5] - 原始扩散模型应用于轨迹生成时面临模式崩溃(mode collapse)问题,倾向于生成保守且单一的轨迹,无法捕捉未来多样性 [5][13] - DiffusionDrive通过预定义轨迹锚点构建高斯混合模型先验,将生成空间划分为对应不同驾驶意图的子空间,从而促进多样化行为生成 [5][13] - 但DiffusionDrive依赖模仿学习,其训练目标仅优化与专家轨迹最接近的“正模式”,对占样本绝大多数的“负模式”缺乏约束,导致生成大量低质量甚至碰撞的轨迹,无法保证持续高质量 [8][17][18] DiffusionDriveV2核心方法 - **整体架构**:采用DiffusionDrive作为预训练的轨迹生成器进行冷启动,引入强化学习目标对所有生成模式施加约束并推动探索 [19][21] - **尺度自适应乘法探索噪声**:为解决轨迹近端与远端尺度不一致问题,采用纵向与横向乘法高斯噪声替代加法噪声,生成的探索路径更平滑,保留了轨迹连贯性 [24] - **锚点内GRPO**:为避免不同驾驶意图(如直行与转弯)间不当的优势比较导致模式崩溃,仅在每个锚点内部生成的轨迹变体组内执行GRPO策略更新 [9][24] - **锚点间截断GRPO**:为解决锚点内GRPO优势估计丧失全局可比性的问题,修改优势估计,将所有负优势截断为0,并对发生碰撞的轨迹施加-1的强惩罚,原则是“奖励相对改进,仅惩罚绝对失败” [27][28] - **模式选择器**:采用两阶段“粗到细”评分器,结合二元交叉熵损失和Margin-Rank损失,从多模态预测中选择最优轨迹 [29] 实验结果与性能 - **基准测试成绩**:在NAVSIM v1测试集上,PDMS达到91.2,相比DiffusionDrive提升3.1;在NAVSIM v2测试集上,EPDMS达到85.5 [4][33] - **模型效率**:仅使用2180万参数的ResNet-34主干网络,性能优于基于9690万参数V2-99主干网络的对比方法(如GoalFlow和Hydra-MDP) [33] - **多样性与质量权衡**: - 原始扩散方法(如TransfuserTD)多样性得分仅0.1,质量稳定但缺乏多样性 [37] - DiffusionDrive多样性得分高达42.3,但质量无法保证(PDMS@10为75.3) [37] - DiffusionDriveV2多样性得分30.3,在多样性与质量间实现最优权衡,其PDMS@1为94.9(提高上限),PDMS@10为84.4(提高下限) [37][38] - **消融实验验证**: - 乘法探索噪声优于加法噪声,PDMS从89.7提升至90.1 [40] - 使用锚点内GRPO使PDMS从89.2提升至90.1 [41] - 使用锚点间截断GRPO使PDMS从89.5提升至90.1 [42] 研究意义与贡献 - 据研究者所知,DiffusionDriveV2是首个直接面对并解决截断扩散模型在轨迹生成中“多样性与持续高质量”两难困境的工作 [12] - 是首个成功将GRPO方法迁移到基于锚点的截断扩散模型的工作 [12] - 该方法证明了强化学习的“探索-约束”范式能有效提高模型性能下限与上限,为端到端自动驾驶规划提供了新思路 [8][38]
全面超越DiffusionDrive, GMF-Drive:全球首个Mamba端到端SOTA方案
理想TOP2· 2025-08-18 20:43
端到端自动驾驶技术瓶颈与解决方案 - 当前端到端自动驾驶方案存在多模态融合架构瓶颈,主流TransFuser方法仅实现简单特征拼接而非结构化信息整合[4][6] - 传统LiDAR预处理方法丢失关键3D几何信息,标准自注意力机制缺乏空间感知能力,导致模型感知受限[8] - 中科大与中国矿业大学团队提出GMF-Drive框架,通过几何增强柱状表示与门控状态空间模型解决上述问题[7][8] GMF-Drive核心技术创新 - 设计14维几何增强柱状表示,保留高度变化、强度模式及局部表面几何信息,相比传统直方图方法显著提升感知精度[16][19] - 提出GM-Fusion模块整合三部分:门控通道注意力对齐多模态特征、BEV-SSM实现线性复杂度空间建模、分层可变形跨注意力精细化融合[19][37] - 采用自车中心极坐标编码与双扫描模式(光栅扫描+Z字扫描),实现方向感知与距离衰减的空间依赖建模[20][21][22] 性能表现与实验验证 - 在NAVSIM基准测试中PDMS得分达88.9,较最佳基线DiffusionDrive提升0.8分,其中可行驶区域符合率(DAC)达97.3(提升1.1分),自车推进率(EP)达83.3分[29][30] - 消融实验显示:8维柱状表示使PDMS从88.10提升至88.61,完整14维表示进一步升至88.85,证明几何信息保留的关键作用[33][34] - 融合架构对比中,HCA+BEV-SSM组合达到88.69 PDMS分,显著优于跨注意力(88.39)及通用状态空间模型(88.02)[35][36][37] 行业技术演进趋势 - 端到端自动驾驶从早期CNN方法演进至多模态系统,BEV表示成为重要里程碑,TransFuser及UniAD等Transformer架构主导当前方案[9] - 多模态融合存在三类方法:早期融合(原始数据层)、后期融合(决策层)及中期融合(特征层),当前主流为Transformer中期融合[10][13] - Mamba架构因线性计算复杂度优势成为潜在突破方向,有望替代计算量呈平方增长的Transformer架构[3][11]
全面超越DiffusionDrive!中科大GMF-Drive:全球首个Mamba端到端SOTA方案
自动驾驶之心· 2025-08-14 07:33
端到端自动驾驶框架GMF-Drive - 突破Transformer瓶颈,提出门控Mamba融合+空间感知BEV的端到端自动驾驶框架,通过几何增强柱状表示和空间感知状态空间模型实现高效多模态融合 [7][13][16] - 包含三个核心模块:数据预处理模块(14维柱状表示保留3D几何信息)、感知模块(GM-Fusion实现线性复杂度空间建模)、轨迹规划模块(截断扩散策略生成轨迹) [13][19][22] - 在NAVSIM基准测试中PDMS得分88.9,较DiffusionDrive提升0.8分,关键子指标DAC和EP分别达到97.3和83.3 [32][33] 多模态融合技术演进 - 当前主流方法采用TransFuser风格架构,直接拼接图像与LiDAR特征并通过自注意力处理,存在信息损失和缺乏空间感知两大缺陷 [3][5][6] - 多模态融合方法分为三类:早期融合(原始数据层)、后期融合(决策层)、中期融合(特征层),当前以Transformer为核心的中期融合为主流但计算量大 [10][11][14] - 行业趋势从早期CNN方法演进到多模态系统,关键里程碑包括BEV表示(TransFuser)、多任务整合(UniAD)、向量化表示(VAD)和稀疏表示(SparseDrive) [8][11] 技术创新点 - 几何增强柱状表示:14维特征包含点特征池化结果和统计特征(反射强度均值方差、PCA几何描述符),保留传统方法丢失的3D几何信息 [19][20] - GM-Fusion模块:整合门控通道注意力(特征对齐)、BEV-SSM(方向感知+双扫描模式空间建模)、分层可变形跨注意力(多尺度特征查询) [22][24][25] - 空间感知机制:自车中心极坐标编码实现维度交错,双扫描模式(光栅扫描+Z字扫描)结合距离衰减机制优化空间依赖建模 [24][25][26][27] 性能验证 - 定量比较:在相同ResNet-34主干和传感器输入条件下,PDMS得分88.9超越所有对比方法,DAC指标97.3显示精细空间特征提升场景理解能力 [32][33] - 消融实验:完整系统组件使PDMS提升0.75分,其中14维柱状表示贡献0.24分,GM-Fusion模块贡献0.74分,验证数据表示与架构设计的协同重要性 [37][38][39] - 融合架构对比:HCA+BEV-SSM配置PDMS达88.69,证明针对BEV优化的扫描模式与空间先验比通用序列模型(C-EffiMamba)更有效 [41][42]
可以留意一下10位业内人士如何看VLA
理想TOP2· 2025-07-21 22:36
自动驾驶技术发展现状 - BEV感知方案已完全成熟并广泛应用于量产车型 基于BEV的动态感知、静态感知、OCC感知均实现技术落地 [16][24] - 端到端方案仍处于验证阶段 实际效果未显著超越传统两阶段模型 存在数据收集难度大、训练成本高等实操问题 [11][31] - 行业面临的核心挑战是corner case处理能力 非结构化道路、复杂路口等场景通过率不足99% [16][24] 新兴技术路线争议 VLA/VLM技术 - **看好派**:认为VLA通过大模型推理能力实现场景理解 可突破传统规则引擎的迭代瓶颈 是下一代技术重点方向 [2][28] - **质疑派**:指出当前VLA基座多依赖开源模型魔改 缺乏专用预训练体系 且车端算力限制导致性能与延迟难以平衡 [1][27] - **中立派**:认为对话功能仅提供情绪价值 控车逻辑需独立设计 量产可行性存在但效果待验证 [3][18] 关键技术突破方向 - **世界模型**:三大应用场景包括预训练、仿真数据生成、端侧推理 目前数据生成领域已取得阶段性成果 [6][33] - **强化学习**:仿真精度是核心瓶颈 若能解决sim2real域差距 配合端到端架构将实现性能飞跃 [6][32] - **扩散模型**:适配多模态轨迹生成特性 地平线DiffusionDrive方案已实现实时性突破 [7][26] 行业竞争格局演变 - 数据闭环能力成为竞争焦点 头部公司重点构建AI驱动的数据流水线 涵盖采集、清洗、标注全流程自动化 [20][22] - 仿真技术呈现两极分化:L4企业侧重世界模型构建安全验证体系 L2+厂商聚焦VLA提升泛化能力 [18][30] - 芯片算力制约技术落地 7B参数以下模型成主流 量化加速与轻量化算法需求迫切 [27][28] 学术与产业协同 - 学术界研究滞后于产业落地 BEV从论文发表到量产应用耗时2年 当前VLA等技术尚未形成理论共识 [31][9] - 产学研割裂问题突出 工业界数据壁垒导致学术界缺乏真实场景验证数据集 [13][31] - 3D高斯等新型表征方法有望重构世界模型架构 球谐函数替换等基础研究具备潜力 [6][33] 技术路线选择建议 - 短期优先完善一站式端到端方案 长期需突破鲁棒性瓶颈以实现L4 [18][26] - 平价车型可采用BEV+蒸馏方案过渡 等待芯片成本下降支撑大模型部署 [24][26] - 自动驾驶与具身智能技术互通 建议选择迁移性强的研究方向 [34][22]