多模态LLM融合 - 财报，业绩电话会，研报，新闻

多模态LLM融合

搜索文档

具身智能之心· 2025-06-27 16:36

具身AI与多传感器融合感知 - 具身AI以物理实体为载体，通过动态环境实时感知实现自主决策和行动能力，是突破AI发展瓶颈、实现通用人工智能（AGI）的关键路径[3] - 多传感器融合感知（MSFP）对实现具身AI的稳健感知和准确决策能力至关重要，需融合视觉相机、毫米波雷达、激光雷达等多模态传感器数据[3] - 当前MSFP方法面临跨模态数据异质性、时空异步和传感器故障等固有挑战[4] 传感器数据与数据集 - 相机数据捕捉丰富外观特征但对光照敏感，激光雷达提供高精度3D点云但对天气敏感，毫米波雷达在恶劣天气性能良好[10] - KITTI数据集包含14,999张图像及相应点云，采集于德国卡尔斯鲁厄及附近城市[13] - nuScenes数据集在波士顿和新加坡采集，包含140万张相机图像、39万次LiDAR扫描和140万次雷达扫描[13] - Waymo Open数据集包括126万个3D边界框和118万个2D边界框，涵盖白天、夜间、黎明、黄昏和雨天场景[14] 感知任务 - 目标检测任务需准确定位和识别物体，2D检测输出类别和2D边界框，3D检测包括3D位置坐标、尺寸和航向角[16] - 语义分割任务将场景中的每个基本单元分类为语义类别[17] - 深度估计任务从传感器数据获取场景深度信息，为具身智能体提供3D几何理解[17] - 占用预测任务提供对3D空间的密集语义理解，通过离散化3D空间为体素预测占用状态和语义类别[17] 多模态融合方法 - 点级融合方法集成点云几何坐标信息与图像语义细节，如PointFusion、PointPainting等方法[23][24] - 体素级融合方法将LiDAR点云转换为规则网格，如CenterFusion、VPFNet等方法[25][26] - 区域级融合方法从2D图像和其他模态聚合特定区域信息，如AVOD、RoarNet等方法[28][29] - 多级融合方法从不同级别集成多模态信息，如MVX-Net、EPNet等方法[30][31] 多智能体融合方法 - 协作感知技术可集成多个智能体和基础设施的感知数据，解决遮挡和传感器故障问题[35] - CoBEVT通过稀疏Transformer生成BEV分割预测进行协作处理[35] - V2VNet基于图神经网络融合多辆车的中间特征表示[36] - When2Com框架学习构建通信组和通信时机，减少带宽使用[37] 时间序列融合方法 - 密集查询方法为高分辨率3D或BEV空间中的每个查询点分配固定位置，如BEVFormer、BEVFormer v2[40][41] - 稀疏查询方法因其效率、准确性和适用于稀疏感知任务而受欢迎，如StreamPETR、Sparse4D系列[42][43] - 混合查询方法结合密集和稀疏查询范式，如UniAD、FusionAD等方法[45][46] 多模态LLM融合方法 - 视觉-语言方法结合视觉和文本数据进行语义对齐，如X-Driver、Mpdrive等方法[50] - 视觉-LiDAR-语言方法集成视觉、LiDAR和语言数据进行3D空间理解，如DriveMLM、MAPLM等方法[51][52]