Workflow
ADAS新范式!北理&清华MMTL-UniAD:多模态和多任务学习统一SOTA框架(CVPR'25)
自动驾驶之心·2025-06-23 19:34

核心观点 - 提出统一的多模态多任务学习框架MMTL-UniAD,可同步识别驾驶员行为、情绪、交通环境及车辆行为四项任务,解决现有研究忽视任务间联合学习潜力的问题 [1][5][26] - 通过多轴区域注意力网络(MARNet)和双分支多模态嵌入模块两大核心组件,有效缓解多任务学习中的负迁移现象,实现任务共享特征与特有特征的动态平衡 [5][7][14] - 在AIDE数据集上验证显示,MMTL-UniAD在四项任务中均达到SOTA性能,mAcc指标提升4.10%-12.09%,驾驶员行为识别和车辆行为识别准确率分别提升4.64%和3.62% [18][26] 算法设计 多轴区域注意力网络(MARNet) - 采用水平-垂直双向注意力机制提取全局上下文信息,结合区域注意力筛选任务相关特征,减少无关特征导致的负迁移 [11][12] - 将特征图划分为独立区域并计算区域级注意力,通过相似度矩阵选取最相似邻域区域,增强关键特征提取能力 [12] 双分支多模态嵌入模块 - 任务共享分支整合多模态信息学习通用表示,任务特有分支通过一维卷积和多头注意力动态调整模态权重,保留任务特性 [14][16] - 自适应调节两类特征权重,实验表明移除该模块会导致mAcc下降5.34%,验证其平衡共享与特有特征的有效性 [25] 实验结果 性能对比 - 在2D模型、2D+时序建模、3D模型三类对比方法中全面领先,四项任务最高准确率达DER 76.67%、DBR 73.61%、TCR 93.91%、VBR 85.00% [18][20] - 消融实验显示,联合训练驾驶员状态与交通环境任务可使双方准确率提升3.50%-4.45%,单任务训练会导致性能下降3.98%-6.13% [22][23] 模块贡献 - 单独移除MARNet或双分支模块均导致mAcc下降至70.25%-76.96%,证明二者协同作用对性能提升的关键性 [24][25] - 多模态数据联合使用(面部+身体姿态+场景)相比单一模态可使mAcc提升5.39%-26.61% [25] 行业意义 - 为ADAS领域提供首个整合驾驶员状态与交通环境识别的多任务框架,推动跨模态特征共享技术发展 [5][26] - 开源代码与模型结构有望成为行业基准,加速智能辅助驾驶系统向高效自适应方向演进 [1][26]