Workflow
激光雷达(LiDAR)
icon
搜索文档
清华大学最新综述!具身AI中多传感器融合感知:背景、方法、挑战
具身智能之心· 2025-06-27 16:36
具身AI与多传感器融合感知 - 具身AI以物理实体为载体,通过动态环境实时感知实现自主决策和行动能力,是突破AI发展瓶颈、实现通用人工智能(AGI)的关键路径[3] - 多传感器融合感知(MSFP)对实现具身AI的稳健感知和准确决策能力至关重要,需融合视觉相机、毫米波雷达、激光雷达等多模态传感器数据[3] - 当前MSFP方法面临跨模态数据异质性、时空异步和传感器故障等固有挑战[4] 传感器数据与数据集 - 相机数据捕捉丰富外观特征但对光照敏感,激光雷达提供高精度3D点云但对天气敏感,毫米波雷达在恶劣天气性能良好[10] - KITTI数据集包含14,999张图像及相应点云,采集于德国卡尔斯鲁厄及附近城市[13] - nuScenes数据集在波士顿和新加坡采集,包含140万张相机图像、39万次LiDAR扫描和140万次雷达扫描[13] - Waymo Open数据集包括126万个3D边界框和118万个2D边界框,涵盖白天、夜间、黎明、黄昏和雨天场景[14] 感知任务 - 目标检测任务需准确定位和识别物体,2D检测输出类别和2D边界框,3D检测包括3D位置坐标、尺寸和航向角[16] - 语义分割任务将场景中的每个基本单元分类为语义类别[17] - 深度估计任务从传感器数据获取场景深度信息,为具身智能体提供3D几何理解[17] - 占用预测任务提供对3D空间的密集语义理解,通过离散化3D空间为体素预测占用状态和语义类别[17] 多模态融合方法 - 点级融合方法集成点云几何坐标信息与图像语义细节,如PointFusion、PointPainting等方法[23][24] - 体素级融合方法将LiDAR点云转换为规则网格,如CenterFusion、VPFNet等方法[25][26] - 区域级融合方法从2D图像和其他模态聚合特定区域信息,如AVOD、RoarNet等方法[28][29] - 多级融合方法从不同级别集成多模态信息,如MVX-Net、EPNet等方法[30][31] 多智能体融合方法 - 协作感知技术可集成多个智能体和基础设施的感知数据,解决遮挡和传感器故障问题[35] - CoBEVT通过稀疏Transformer生成BEV分割预测进行协作处理[35] - V2VNet基于图神经网络融合多辆车的中间特征表示[36] - When2Com框架学习构建通信组和通信时机,减少带宽使用[37] 时间序列融合方法 - 密集查询方法为高分辨率3D或BEV空间中的每个查询点分配固定位置,如BEVFormer、BEVFormer v2[40][41] - 稀疏查询方法因其效率、准确性和适用于稀疏感知任务而受欢迎,如StreamPETR、Sparse4D系列[42][43] - 混合查询方法结合密集和稀疏查询范式,如UniAD、FusionAD等方法[45][46] 多模态LLM融合方法 - 视觉-语言方法结合视觉和文本数据进行语义对齐,如X-Driver、Mpdrive等方法[50] - 视觉-LiDAR-语言方法集成视觉、LiDAR和语言数据进行3D空间理解,如DriveMLM、MAPLM等方法[51][52]
清华大学最新综述!当下智能驾驶中多传感器融合如何发展?
自动驾驶之心· 2025-06-26 20:56
具身AI与多传感器融合感知的重要性 - 具身AI是以物理实体为载体,通过实时感知实现自主决策和行动能力的智能形式,在自动驾驶、机器人群体智能等领域有广泛应用,是突破AI发展瓶颈、实现通用人工智能(AGI)的关键路径 [2] - 传感器数据理解是连接物理世界与数字智能的核心环节,具身智能体需要融合视觉相机、毫米波雷达、激光雷达(LiDAR)、红外相机和IMU等多模态传感器数据以实现全景感知 [2] - 多传感器融合感知(MSFP)对实现具身AI的稳健感知和准确决策能力至关重要,例如视觉相机易受光照变化干扰,而激光雷达在雨雾天气性能会大幅衰减 [2] 现有研究的局限性 - 当前基于AI的MSFP方法在具身AI中面临跨模态数据的异质性使得特征空间难以统一的挑战 [3] - 不同传感器之间的时空异步可能导致融合误差,传感器故障(如镜头污染、信号遮挡)可能导致多模态信息的动态丢失 [3][4] - 现有综述大多面向单一任务或研究领域,如3D目标检测或自动驾驶,缺乏对多智能体融合、时间序列融合等MSFP方法多样性的考虑 [4] 传感器数据 - 相机数据可捕捉物体的颜色、形状和纹理等丰富外观特征,但对光照条件敏感,在夜间和恶劣天气下图像质量显著下降 [7] - 激光雷达(LiDAR)数据直接输出包含空间几何信息的高精度3D点云,在3D感知中具有独特优势,但对天气敏感且点云数据稀疏不均匀 [7] - 毫米波雷达数据在恶劣天气下性能良好,可直接测量物体速度,但点云更稀疏难以准确描述物体轮廓 [10] 数据集 - KITTI包含14,999张图像及相应点云,数据采集车辆配备两台灰度相机、两台彩色相机、一个Velodyne 64线LiDAR等设备 [13] - nuScenes包括700个训练场景、150个验证场景和150个测试场景,总计5.5小时,包含140万张相机图像、39万次LiDAR扫描 [13] - Waymo Open包括感知和运动数据集,感知数据集中的注释包括126万个3D边界框、118万个2D边界框 [14] 感知任务 - 目标检测是通过传感器获取的数据准确定位和识别各种类型的物体,在3D目标检测场景中需包括目标的3D位置坐标、尺寸信息和航向角 [16] - 语义分割任务旨在将场景中的每个基本单元分类为语义类别,分割模型需要为每个基本单元分配相应的语义标签或类别概率分布 [16] - 深度估计旨在从传感器数据中获取场景的深度信息,为具身智能体提供3D几何理解,对路径规划和决策控制等下游任务至关重要 [16] 多模态融合方法 - 点级融合方法实现LiDAR点云与图像数据在单个点级别的特征融合,通过集成点云的几何坐标信息与图像的语义细节提高多模态感知精度 [21] - 体素级融合方法将不规则的LiDAR点云转换为规则网格,在保留几何信息的同时实现高效处理,相机图像被集成到基于体素的方法中以获得更好的感知能力 [23] - 区域级融合方法侧重于从2D图像和其他模态聚合特定区域的信息,在模态之间的空间对齐更容易实现的场景中特别有效 [28] 多智能体融合方法 - 协作感知技术可以集成来自多个智能体和基础设施的感知数据,对解决遮挡和传感器故障问题至关重要 [34] - CoBEVT是第一个通用的多智能体多相机感知框架,通过稀疏Transformer生成BEV分割预测以进行协作处理 [34] - V2VNet引入了一个基于图神经网络的框架,用于融合来自多辆车的中间特征表示 [35] 时间序列融合 - 密集查询方法为高分辨率3D空间或BEV空间中的每个查询点分配固定的光栅化空间位置,BEVFormer通过可变形注意力机制实现多个相机视图中的自适应特征交互 [44] - 稀疏查询方法因其效率、准确性和适用于稀疏感知任务而在行业中越来越受欢迎,StreamPETR通过对象查询系统地在帧间传播长期信息 [47] - 混合查询方法结合密集和稀疏查询范式,以平衡计算效率和全面的场景理解,UniAD将感知、预测和规划集成在一个统一的框架中 [51] MM-LLM融合方法 - 视觉-语言方法结合视觉和文本数据进行语义对齐,X-Driver利用具有思维链推理和自回归建模的多模态大型语言模型实现卓越的闭环自动驾驶性能 [57] - 视觉-LiDAR-语言方法将点云特征与文本特征对齐,DriveMLM采用时间QFormer处理多视图图像,有效捕捉不同视角之间的时间动态和空间关系 [59] - MAPLM将3D LiDAR点云数据投影到BEV图像,并通过视觉编码器提取特征,使强大的视觉模型的使用成为可能 [60]
已秘密提交香港上市申请?山西80后天才级人物“闷声干大事”
搜狐财经· 2025-05-19 23:31
公司上市动态 - 禾赛科技已秘密提交香港上市申请 可能于2025年内完成 但具体规模和时间表未落实 [1] - 受此消息影响 公司美股盘前最高涨超7% 开盘后收涨1 84% [1] - 公司于2023年2月登陆纳斯达克 成为中国激光雷达第一股 发行市值约24亿美元(约160亿元人民币) 募集资金1 9亿美元 [1][6] 创始人背景 - 创始人李一帆1986年出生于山西孝义 清华大学精密仪器与机械学系毕业 后赴美深造获硕士和博士学位 [4] - 创始团队包括李一帆 向少卿 孙恺三位学霸级人物 2013年在硅谷创立公司 2014年决定回国创业 [2][4] - 公司最初以激光气体遥测系统起家 2016年转向激光雷达市场 [4] 业务发展 - 2016年推出首款32线激光雷达 2017年推出Pandar40 打破国外垄断 [6] - 2018年获得百度无人车订单实现扭亏为盈 2021年与理想汽车达成合作 [6] - 2025年2月已与22家国内外汽车厂商的120款车型达成量产定点合作 [10] - 国内市场获得比亚迪 奇瑞 长城等11家头部车企定点合作 产品规划为2025年量产车型标配 [10] 近期重大订单 - 2025年2月与比亚迪达成合作 十余款车型将搭载其激光雷达 [7] - 2025年3月获得欧洲顶级主机厂多年独家定点合作 覆盖多款燃油车和新能源车型 [7] - 2025年5月获得长城旗下欧拉汽车下一代车型独家定点合作 预计年内量产交付 [10] 财务表现 - 2024年全年营收20 8亿元 同比增长10 7% 创历史新高 [10] - 非通用会计准则下净利润约1370万元 首次实现全年盈利 [10] - 预计2025年营收30-35亿元 第一季度收入5 2-5 4亿元 毛利率维持在40%左右 [11] 行业前景 - 2024年全球乘用车激光雷达市场规模6 92亿美元 同比增长68% 中国品牌占92%份额 [11] - 预计2027年全球市场规模达62亿美元 年均复合增长率41% [11] - 花旗预测公司2025-2027年净利润年复合增长率达90% 预计在中国市场长期市占率超40% 海外近50% [13] 港股市场环境 - 港交所推出"科企专线"上市新政 允许保密形式提交申请 [13] - 2025年初至5月14日已有21家企业登陆港股 募资234 72亿港元 同比增长198 32% [13]
2025年中国机器狗核心零部件方案对比 多传感器融合为重要趋势(组图)
前瞻网· 2025-04-28 18:27
转自:前瞻产业研究院 行业主要上市公司:建设工业(002265.SZ)、晶品特装(688084.SH)、中坚科技(002779.SZ)、申昊科技 (300853.SZ)、光格科技(688450.SH)、汉王科技(002362.SZ)、景业智能(688290.SH)等 本文核心数据:机器狗核心零部件;机器狗传感器设计方案 从产业链角度出发,机器狗产业可分为上游的核心零部件和软件系统开发,中游的机器狗本体制造,下 游的个人消费者和各个应用场景的商业用户。机器狗产业链涉及的技术横跨通信、人工智能等多个高新 技术领域,各环节技术壁垒均较高。 从产业链环节来看,上游包括传感器、减速器、电机、控制器、关节执行器等核心零部件,以及 SLAM、机器视觉、语音交互、操作系统等软件及技术;在产业链中游,机器狗的本体制造主要分为军 事级机器狗、工业级机器狗、消费级机器人三大类;下游则为教育、医疗、安防、侦查、消防等应用场 景用户以及个人消费者。 产业链梳理 减速器:行星减速器是最优解 减速器是一种由封闭在刚性壳体内的齿轮传动、蜗杆传动、齿轮-蜗杆传动所组成的独立部件,常用作 原动机与工作机之间的减速传动装置,在原动机和工作机或执行 ...