Workflow
GEMINUS
icon
搜索文档
同济大学最新!GEMINUS:端到端MoE实现闭环新SOTA,性能大涨近8%~
自动驾驶之心· 2025-07-22 20:46
核心观点 - GEMINUS是一种基于专家混合(MoE)的端到端自动驾驶框架,通过双感知路由器动态激活全局专家和场景自适应专家,在多样化场景下实现自适应与鲁棒性兼具的性能 [1] - 该框架在Bench2Drive闭环基准测试中超越现有方法,驾驶评分提升7.67%,成功率提升22.06%,MultiAbility-Mean提升19.41% [2][49] - 仅使用单目视觉输入即达到SOTA水平,驾驶评分提升9.17%,成功率提升25.77%,开环平均L2误差降低5.88% [37] 技术架构 框架设计 - 包含全局专家(整体数据集训练)、场景自适应专家组(场景子集训练)和双感知路由器(场景级特征+路由不确定性) [1] - 路由器采用硬分配机制,当不确定性低于阈值时选择场景专家,高于阈值时启用全局专家 [18] - 场景分类包括汇入、超车、紧急制动、让行和交通标志5类 [24] 关键组件 - 特征编码器采用ResNet34处理图像输入,测量编码器处理车辆状态信息 [20] - 轨迹规划器生成未来航路点序列,通过PID控制器输出控制信号 [17][20] - 损失函数整合轨迹模仿、特征对齐、价值对齐等多目标优化 [29][31][33] 性能表现 基准测试 - 驾驶评分65.39,成功率37.73%,MultiAbility-Mean 37.77%,均显著优于单专家基线 [41] - 超车场景准确率91.35%,交通标志场景90.45%,但让行场景仅2.87% [42][46] - 全局专家利用率6.29%,在模糊场景中发挥稳定作用 [47][48] 消融实验 - 纯MoE架构直接应用会导致性能下降,验证定制化设计的必要性 [40] - 场景感知路由使驾驶评分提升2.72%,成功率提升4.40% [40] - 不确定性路由+全局专家带来额外4.83%驾驶评分和22.06%成功率提升 [40] 行业应用 技术突破 - 首次将MoE架构成功应用于端到端自动驾驶,解决模态平均问题 [6][12] - 单目视觉性能超越多相机方案,降低硬件成本 [37][38] - 路由机制可解释性强,专家利用率反映场景特征明显程度 [47] 发展前景 - 可扩展至多相机输入提升场景感知能力 [50] - 探索Mixture-of-LoRA架构优化参数效率 [50] - 在长尾场景处理和安全冗余方面具备迭代潜力 [11][50]