Workflow
全面超越DiffusionDrive, GMF-Drive:全球首个Mamba端到端SOTA方案
理想TOP2·2025-08-18 20:43

端到端自动驾驶技术瓶颈与解决方案 - 当前端到端自动驾驶方案存在多模态融合架构瓶颈,主流TransFuser方法仅实现简单特征拼接而非结构化信息整合[4][6] - 传统LiDAR预处理方法丢失关键3D几何信息,标准自注意力机制缺乏空间感知能力,导致模型感知受限[8] - 中科大与中国矿业大学团队提出GMF-Drive框架,通过几何增强柱状表示与门控状态空间模型解决上述问题[7][8] GMF-Drive核心技术创新 - 设计14维几何增强柱状表示,保留高度变化、强度模式及局部表面几何信息,相比传统直方图方法显著提升感知精度[16][19] - 提出GM-Fusion模块整合三部分:门控通道注意力对齐多模态特征、BEV-SSM实现线性复杂度空间建模、分层可变形跨注意力精细化融合[19][37] - 采用自车中心极坐标编码与双扫描模式(光栅扫描+Z字扫描),实现方向感知与距离衰减的空间依赖建模[20][21][22] 性能表现与实验验证 - 在NAVSIM基准测试中PDMS得分达88.9,较最佳基线DiffusionDrive提升0.8分,其中可行驶区域符合率(DAC)达97.3(提升1.1分),自车推进率(EP)达83.3分[29][30] - 消融实验显示:8维柱状表示使PDMS从88.10提升至88.61,完整14维表示进一步升至88.85,证明几何信息保留的关键作用[33][34] - 融合架构对比中,HCA+BEV-SSM组合达到88.69 PDMS分,显著优于跨注意力(88.39)及通用状态空间模型(88.02)[35][36][37] 行业技术演进趋势 - 端到端自动驾驶从早期CNN方法演进至多模态系统,BEV表示成为重要里程碑,TransFuser及UniAD等Transformer架构主导当前方案[9] - 多模态融合存在三类方法:早期融合(原始数据层)、后期融合(决策层)及中期融合(特征层),当前主流为Transformer中期融合[10][13] - Mamba架构因线性计算复杂度优势成为潜在突破方向,有望替代计算量呈平方增长的Transformer架构[3][11]