文章核心观点 - 提出一种名为MoSE(Skill-by-Skill Mixture-of-Expert)的新型混合专家学习框架,专门用于提升自动驾驶系统的推理能力[2][8] - 该方法模拟人类驾驶员的学习过程,通过逐技能、分层次的路由机制,使小规模视觉语言模型(<3B参数)在自动驾驶难例推理任务上达到或超越更大规模模型(8B+参数)的性能[2][10] - 在CODA数据集上的实验结果显示,MoSE模型在激活参数少于30亿的情况下,综合得分达到66.03,超越了多个80亿参数以上的专业模型[34][35] 技术方法创新 - 引入以技能为中心的路由机制,首先定义驾驶任务所需的基本技能,然后通过规则或大型VLM(如GPT-4o)对数据进行技能标注,引导专家网络针对不同驾驶场景和阶段进行专业化学习[13][14][17] - 采用分层路由策略,将驾驶任务分解为感知、预测、规划等层次,使模型能够以逐步推理的方式生成答案,提高不同层次问题回答的一致性[8][15] - 在MoSE层中设计共享专家和技能专用专家组合,共享专家始终激活以捕捉全局信息,技能专家则针对特定场景和阶段进行优化[21] 性能优势 - 在CODA自动驾驶极端情况推理任务中,MoSE模型在综合得分上达到66.03,优于专业模型如CODA-8B(63.62)和DriveMM-8B(64.18)[34] - 与基线模型Qwen2-VL SFT(62.50)和普通MoE方法(64.33)相比,MoSE在保持模型规模较小(<3B参数)的情况下实现了性能提升[34][35] - 模型在单轮问答中完成多轮对话的任务,避免了额外的计算成本,激活参数数量相比现有方法减少至少62.5%[2][10] 数据效率与可扩展性 - MoSE方法仅需少量技能标注数据(如2000个样本)即可有效训练路由器,扩大标注数据规模(如3000个样本)并未带来显著性能提升,表明该方法对数据需求较低[42][43] - 通过专家组扩展策略,在不重新训练路由器的情况下增强模型能力,例如为不同模态(文本、图像)分配专用专家,进一步提升性能[23][34] - 在DriveLM数据集上的扩展实验表明,MoSE能够适配不同骨干模型(如StableLM-1.6B)和任务设置,验证其跨数据集的泛化能力[45][46] 行业应用潜力 - 该技术为自动驾驶领域提供了一种高效利用小规模模型实现复杂推理任务的解决方案,有助于降低系统部署的计算成本和能耗[7][10] - 分层技能路由机制增强了模型的可解释性,通过结构化推理链(如对象检测→行为预测→优先级评估)提供调试线索,提升用户对模型的信任[15][48] - 方法可扩展至其他需要多模态理解和实时决策的领域,如机器人技术,为高智能应用系统的开发提供新思路[5][48]
三星最新MoSE:专为自驾Corner Case设计的MoE,直接SOTA!
自动驾驶之心·2025-07-13 21:18