时间序列融合

搜索文档
清华大学具身智能多传感器融合感知综述
具身智能之心· 2025-07-27 17:37
具身智能与多传感器融合感知综述 I 核心观点 - 具身AI通过物理实体载体实现动态环境中的自主决策,是突破AGI发展瓶颈的关键路径[6] - 多传感器融合感知(MSFP)通过整合相机/LiDAR/毫米波雷达等异构数据,解决单一传感器在复杂环境中的局限性[7][12] - 现有研究存在数据异构性、时空异步性、传感器故障等核心挑战,需开发新型融合方法与跨模态对齐技术[12][69] II 传感器与数据集 - **相机数据**:提供丰富颜色/纹理特征但受光照条件影响显著,恶劣天气下性能下降50%以上[13] - **LiDAR数据**:输出高精度3D点云但存在稀疏性问题,雨雾天气中有效探测距离缩短30-40%[13] - **毫米波雷达**:在恶劣天气保持稳定性能,可直接测速但点云稀疏度比LiDAR高5-8倍[13] - **主流数据集**: - nuScenes包含140万张图像+39万次LiDAR扫描,覆盖23个物体类别[16] - Waymo Open包含126万3D边界框,涵盖昼夜/雨天等多场景[17] - KITTI提供14,999帧数据,标注精度达厘米级[14][15] III 融合方法分类 - **点级融合**:通过投影实现像素-点云对齐,PointPainting方法将分割掩码特征标注到LiDAR点[25] - **体素级融合**:AutoAlign框架实现动态特征对齐,无需依赖精确投影矩阵[24] - **区域级融合**:AVOD网络处理BEV和RGB图像,生成高分辨率特征图[30] - **多级融合**:TransFusion利用Transformer建立跨模态软关联,提升鲁棒性32%[32] IV 多智能体协作 - **协作优势**:CoBEVT框架通过轴向注意力模块,使多车系统感知范围扩大2.5倍[38] - **通信优化**:When2Com方法减少带宽使用40%,同时保持95%以上的分割准确率[47] - **深度补全**:CoCa3D通过共享深度信息,将远距离目标检测准确率提升28%[39] V 时间序列融合 - **密集查询**:BEVFormer v2通过两阶段检测架构,无需深度预训练数据[55] - **稀疏查询**:Sparse4D系列采用递归方法,计算效率提升60%[56] - **混合查询**:UniAD框架集成感知/预测/规划,轨迹预测误差降低22%[59] VI 多模态大模型 - **视觉-语言**:Sce2DriveX框架通过LLM实现驾驶决策准确率提升35%[66] - **3D空间理解**:LiDAR-LLM将点云转换为语言建模任务,问答准确率达89%[67] - **知识增强**:SafeAuto通过多模态基础模型,事故率降低42%[66] VII 未来方向 - **数据生成**:采用AIGC技术合成罕见场景数据,填补真实数据集空白[74] - **模型架构**:开发几何学习与MM-LLM结合的混合架构,处理不规则传感器数据[76] - **自适应算法**:零样本学习方法使模型泛化能力提升50%[76]
清华大学最新综述!具身AI中多传感器融合感知:背景、方法、挑战
具身智能之心· 2025-06-27 16:36
具身AI与多传感器融合感知 - 具身AI以物理实体为载体,通过动态环境实时感知实现自主决策和行动能力,是突破AI发展瓶颈、实现通用人工智能(AGI)的关键路径[3] - 多传感器融合感知(MSFP)对实现具身AI的稳健感知和准确决策能力至关重要,需融合视觉相机、毫米波雷达、激光雷达等多模态传感器数据[3] - 当前MSFP方法面临跨模态数据异质性、时空异步和传感器故障等固有挑战[4] 传感器数据与数据集 - 相机数据捕捉丰富外观特征但对光照敏感,激光雷达提供高精度3D点云但对天气敏感,毫米波雷达在恶劣天气性能良好[10] - KITTI数据集包含14,999张图像及相应点云,采集于德国卡尔斯鲁厄及附近城市[13] - nuScenes数据集在波士顿和新加坡采集,包含140万张相机图像、39万次LiDAR扫描和140万次雷达扫描[13] - Waymo Open数据集包括126万个3D边界框和118万个2D边界框,涵盖白天、夜间、黎明、黄昏和雨天场景[14] 感知任务 - 目标检测任务需准确定位和识别物体,2D检测输出类别和2D边界框,3D检测包括3D位置坐标、尺寸和航向角[16] - 语义分割任务将场景中的每个基本单元分类为语义类别[17] - 深度估计任务从传感器数据获取场景深度信息,为具身智能体提供3D几何理解[17] - 占用预测任务提供对3D空间的密集语义理解,通过离散化3D空间为体素预测占用状态和语义类别[17] 多模态融合方法 - 点级融合方法集成点云几何坐标信息与图像语义细节,如PointFusion、PointPainting等方法[23][24] - 体素级融合方法将LiDAR点云转换为规则网格,如CenterFusion、VPFNet等方法[25][26] - 区域级融合方法从2D图像和其他模态聚合特定区域信息,如AVOD、RoarNet等方法[28][29] - 多级融合方法从不同级别集成多模态信息,如MVX-Net、EPNet等方法[30][31] 多智能体融合方法 - 协作感知技术可集成多个智能体和基础设施的感知数据,解决遮挡和传感器故障问题[35] - CoBEVT通过稀疏Transformer生成BEV分割预测进行协作处理[35] - V2VNet基于图神经网络融合多辆车的中间特征表示[36] - When2Com框架学习构建通信组和通信时机,减少带宽使用[37] 时间序列融合方法 - 密集查询方法为高分辨率3D或BEV空间中的每个查询点分配固定位置,如BEVFormer、BEVFormer v2[40][41] - 稀疏查询方法因其效率、准确性和适用于稀疏感知任务而受欢迎,如StreamPETR、Sparse4D系列[42][43] - 混合查询方法结合密集和稀疏查询范式,如UniAD、FusionAD等方法[45][46] 多模态LLM融合方法 - 视觉-语言方法结合视觉和文本数据进行语义对齐,如X-Driver、Mpdrive等方法[50] - 视觉-LiDAR-语言方法集成视觉、LiDAR和语言数据进行3D空间理解,如DriveMLM、MAPLM等方法[51][52]