自动驾驶3D基础模型 - 财报，业绩电话会，研报，新闻

自动驾驶3D基础模型

搜索文档

自动驾驶之心· 2025-12-25 17:33

文章核心观点 - 由香港大学、华中科技大学和百度联合研发的UniLION，是一种基于线性组RNN（线性注意力）的统一自动驾驶框架，旨在解决传统Transformer模型在处理大规模点云和多视角图像时计算效率低下的问题 [2][3] - 该框架作为单一多功能架构，无需显式的时序或多模态融合模块，即可无缝支持LiDAR-only、Temporal LiDAR、LiDAR-Camera和Temporal LiDAR-Camera等多种设置，并在一系列核心自动驾驶任务上实现了具有竞争力甚至最先进的性能 [3][4] - UniLION通过其线性计算复杂度和统一的特征表示，显著降低了计算资源需求和系统设计复杂性，为自动驾驶3D基础模型的开发提供了新视角，并展现出良好的部署潜力 [3][35][37] 研究背景与挑战 - 当前自动驾驶系统面临四大挑战：传统Transformer模型二次方复杂度的注意力机制导致处理长序列数据时计算开销显著；多模态融合通常需要专门设计的复杂模块；时序信息处理依赖额外的专用模块；在单一框架中实现感知、预测和规划等多任务学习具有难度 [5] 技术创新点 - **统一的3D骨干网络**：基于线性组RNN，能够无缝处理不同模态和时序信息，无需任何显式融合模块 [7][8] - **线性计算复杂度**：利用线性组RNN的线性计算复杂度，将多视角图像、LiDAR点云和时序信息直接转换为token进行拼接，在3D空间中进行统一融合 [8] - **紧凑统一的BEV表示**：能够将异构多模态信息和时间序列压缩成紧凑、统一的鸟瞰图特征表示，作为多种下游任务的共享特征 [8] - **多任务并行学习**：采用多任务共享的BEV特征，能够通过并行多任务学习，无缝处理感知、预测和规划等多种自动驾驶任务 [8] 核心架构：UniLION Block - **UniLION Layer**：利用线性组RNN操作符实现长距离特征交互，每个层包含两个操作符，分别基于X轴和Y轴窗口划分执行特征交互 [11] - **3D空间特征描述器**：由3D子流形卷积、LayerNorm层和GELU激活函数组成，解决将3D体素特征展平为1D序列时可能丢失空间信息的问题 [11] - **体素合并与扩展**：专为高度稀疏的点云数据设计，用于特征下采样和上采样，以获取多尺度特征 [11] - **自回归体素生成**：利用线性组RNN的自回归能力，在前景体素周围生成扩散体素，解决体素合并可能导致的信息丢失问题 [11] 统一特征表示与多任务处理 - **多模态特征学习**：将LiDAR点云量化为体素提取特征，同时将多视角图像特征通过深度预测转换为相机体素特征，两者连接后生成多模态体素特征，直接输入3D骨干网络进行融合 [13][15] - **时序特征学习**：将历史多模态体素与当前帧体素进行空间对齐后连接，构建时序体素，同样直接输入3D骨干网络自适应学习时序信息 [13][15] - **多任务训练策略**：采用动态损失平衡策略，计算每个任务的动态损失权重以对齐不同任务间的损失，公式为 $$w_{t a s k}={\frac{\mathcal{L}_{d e t}}{\mathcal{L}_{t a s k}+1e^{-5}}}$$，最终损失为各任务加权损失之和 [16][17][18] 实验结果与性能分析 - **整体性能表现**：在nuScenes数据集上，基于Swin-Tiny图像骨干的多模态UniLION模型在3D物体检测上达到**74.9% NDS**和**72.2% mAP**，在多目标跟踪上达到**76.2% AMOTA**，在BEV地图分割上达到**72.3% mIoU**，在3D占用预测上达到**50.8% RayIoU** [20] - **最强时序多模态版本**：在所有评估任务中均达到最先进或极具竞争力的性能：检测任务**75.4% NDS**和**73.2% mAP**，跟踪任务**76.5% AMOTA**，地图分割**73.3% mIoU**，占用预测**51.3% RayIoU**，车辆运动预测**0.57 minADE**，行人运动预测**0.37 minADE**，规划任务碰撞率仅**0.18%** [20] - **轻量级版本性能**：采用ResNet-50和较低图像分辨率的轻量版UniLION，仍获得**73.6% NDS**、**70.8% mAP**、**75.0% AMOTA**、**71.8% mIoU**和**50.2% RayIoU**的满意性能，表明其在计算资源受限环境下仍具实用性 [22] - **组件有效性验证**：3D空间特征描述器带来**0.7% NDS**、**0.8% mAP**、**1.9% AMOTA**、**0.5% mIoU**和**1.1% RayIoU**的性能提升；体素生成模块带来**0.6% NDS**、**1.1% mAP**、**2.7% AMOTA**、**0.1% mIoU**和**0.3% RayIoU**的提升；所有组件结合相比基线模型综合提升显著 [31] - **动态损失机制影响**：动态损失机制为检测任务提升**0.3% NDS**，跟踪任务提升**0.9% AMOTA**，地图分割提升**0.6% mIoU**，但3D占用预测性能略有下降 [26][29] - **多任务学习影响**：联合训练3D检测和地图分割时，地图分割性能从**68.3% mIoU**显著提升至**71.7% mIoU**；进一步加入占用预测任务后，占用预测能力获得**2.7% RayIoU**的显著提升 [27] 鲁棒性与效率分析 - **传感器错位鲁棒性**：模拟相机与LiDAR错位实验显示，即使在“高”错位级别（相机旋转5.0°并平移0.50m），多模态UniLION仅出现适度性能下降（**0.8% NDS**、**1.3% mAP**、**1.0% AMOTA**、**0.3% mIoU**和**1.4% RayIoU**），且始终优于仅使用LiDAR的版本，展现出强大鲁棒性 [32][36] - **参数鲁棒性**：对不同窗口大小和组大小的分析表明，UniLION在不同配置下表现出显著的稳定性和一致性能，具有良好的外推能力 [30][34] - **计算效率**：凭借线性组RNN的线性计算复杂度，UniLION显著降低了计算资源需求和推理时间，相比基于Transformer的方法在处理大规模数据时效率更高，更适合实际部署，特别是在计算资源受限的环境中 [35] 主要贡献与未来展望 - **主要贡献**：提出了统一的多模态处理框架，消除了对手工设计融合模块的需求；生成了紧凑统一的BEV特征表示作为多任务通用基础；在多项核心任务上实现了卓越性能；具备显著的计算效率优势 [38][44] - **未来展望**：计划将UniLION扩展到支持更多传感器模态（如毫米波雷达）；在实际自动驾驶系统中进行应用验证；探索在更大规模数据上进行预训练以进一步提升泛化能力 [39][45]