Workflow
多传感器融合感知
icon
搜索文档
清华大学具身智能多传感器融合感知综述
具身智能之心· 2025-07-27 17:37
具身智能与多传感器融合感知综述 I 核心观点 - 具身AI通过物理实体载体实现动态环境中的自主决策,是突破AGI发展瓶颈的关键路径[6] - 多传感器融合感知(MSFP)通过整合相机/LiDAR/毫米波雷达等异构数据,解决单一传感器在复杂环境中的局限性[7][12] - 现有研究存在数据异构性、时空异步性、传感器故障等核心挑战,需开发新型融合方法与跨模态对齐技术[12][69] II 传感器与数据集 - **相机数据**:提供丰富颜色/纹理特征但受光照条件影响显著,恶劣天气下性能下降50%以上[13] - **LiDAR数据**:输出高精度3D点云但存在稀疏性问题,雨雾天气中有效探测距离缩短30-40%[13] - **毫米波雷达**:在恶劣天气保持稳定性能,可直接测速但点云稀疏度比LiDAR高5-8倍[13] - **主流数据集**: - nuScenes包含140万张图像+39万次LiDAR扫描,覆盖23个物体类别[16] - Waymo Open包含126万3D边界框,涵盖昼夜/雨天等多场景[17] - KITTI提供14,999帧数据,标注精度达厘米级[14][15] III 融合方法分类 - **点级融合**:通过投影实现像素-点云对齐,PointPainting方法将分割掩码特征标注到LiDAR点[25] - **体素级融合**:AutoAlign框架实现动态特征对齐,无需依赖精确投影矩阵[24] - **区域级融合**:AVOD网络处理BEV和RGB图像,生成高分辨率特征图[30] - **多级融合**:TransFusion利用Transformer建立跨模态软关联,提升鲁棒性32%[32] IV 多智能体协作 - **协作优势**:CoBEVT框架通过轴向注意力模块,使多车系统感知范围扩大2.5倍[38] - **通信优化**:When2Com方法减少带宽使用40%,同时保持95%以上的分割准确率[47] - **深度补全**:CoCa3D通过共享深度信息,将远距离目标检测准确率提升28%[39] V 时间序列融合 - **密集查询**:BEVFormer v2通过两阶段检测架构,无需深度预训练数据[55] - **稀疏查询**:Sparse4D系列采用递归方法,计算效率提升60%[56] - **混合查询**:UniAD框架集成感知/预测/规划,轨迹预测误差降低22%[59] VI 多模态大模型 - **视觉-语言**:Sce2DriveX框架通过LLM实现驾驶决策准确率提升35%[66] - **3D空间理解**:LiDAR-LLM将点云转换为语言建模任务,问答准确率达89%[67] - **知识增强**:SafeAuto通过多模态基础模型,事故率降低42%[66] VII 未来方向 - **数据生成**:采用AIGC技术合成罕见场景数据,填补真实数据集空白[74] - **模型架构**:开发几何学习与MM-LLM结合的混合架构,处理不规则传感器数据[76] - **自适应算法**:零样本学习方法使模型泛化能力提升50%[76]
新股速递|从累计亏损10亿到市占率37.7%:希迪智驾如何领跑自动驾驶矿卡赛道?
贝塔投资智库· 2025-07-02 12:04
公司简介 - 公司为专注于商用车自动驾驶技术的高科技企业,成立于2017年,总部位于湖南长沙 [1] - 主要产品包括自动驾驶矿卡解决方案(如"元矿山"系统)、V2X车联网技术及高性能智能感知系统(如TAPS) [1] - 产品应用于矿山、港口、物流园区等封闭或半封闭场景 [1] 财务状况 收入 - 2022-2024年收入分别为0.31亿、1.33亿、4.10亿人民币,两年复合增速达268% [4][5] - 自动驾驶矿卡业务收入分别为2799.8万、7441.8万、2.47亿人民币,2024年占比60.1% [4][5] - V2X业务收入分别为305.8万、3681.2万、1.02亿人民币,2024年占比24.8% [4][5] - 客户数量从2022年44名增至2024年131名,单客户贡献收入从70.6万增至312.9万人民币 [5] - 2024年底积压订单总价值8.31亿人民币,较2023年3.45亿显著增长 [5] 利润和毛利 - 2022-2024年净亏损分别为2.63亿、2.55亿、5.81亿人民币 [5] - 研发支出分别为1.11亿、0.9亿、1.93亿人民币 [5] - 销售成本从2022年0.37亿增至2024年3.09亿,占收入比例从119.3%降至75.3% [5] - 行政开支从2022年0.69亿激增至2024年3.01亿 [5] - 综合毛利率逐年改善,分别为19.3%、20.2%、24.7% [6] - 自动驾驶业务毛利率从2022年-25.1%提升至2024年23.1% [6] 偿债能力 - 2024年底现金储备3.06亿人民币,增长30% [7] - 经营性现金流为负(-1.48亿人民币) [7] - 存货周转天数从2023年513.6天改善至2024年121.8天 [7] - 应收账款周转天数147天,占营收33.4% [7] - 流动比率1.8x,低于行业平均水平2.0x-2.3x [7] 公司优势 市场份额与商业化能力 - 中国最大商用车自动驾驶公司,2024年市场份额16.8% [7] - 自动驾驶矿卡市场排名第一,市占率37.7%,预计2025年提升至46% [7] - 2018年实现商业化,中国最早落地自动驾驶矿卡企业之一 [7] - 全球最大混编矿卡车队,效率达人工驾驶的104% [8] 技术壁垒 - 全球少数实现零事故运营的矿区自动驾驶方案 [8] - "多传感器融合感知+车路协同"方案成本3-6万元/车,比激光雷达方案低30%以上 [8] - "元矿山"系统覆盖车端+路端+云端,竞品仅提供单一车辆自动驾驶方案 [8] - 2024年积压订单包括446辆自动驾驶矿卡及230套独立系统,总价值8.31亿人民币 [8] 政府背书与标杆项目 - 与阿联酋、沙特达成合作,中国首批自动驾驶出海企业之一 [8] - 参与中国7个国家级车联网先导区中的5个,V2X业务收入3年增长1103% [8] 资本与创始人优势 - 创始人李泽湘曾孵化大疆科技(估值1250亿)和固高科技(市值116亿) [9] - 股东包括红杉(10.61%)、百度(2.39%)、联想(3.49%)等 [9] - 2024年C+轮融资后估值90亿人民币,较2022年增长9% [9] 财务增长潜力 - 2022-2024年收入年复合增速263%,远超行业平均50% [9] - 积压订单8.31亿人民币可支撑未来1-2年收入 [9] - 毛利率从2022年-19.3%提升至2024年24.7% [9] 行业现状 - 2025年中国矿山智能化改造需求超600亿人民币,自动驾驶矿卡仅占13亿(2%) [12] - 2030年自动驾驶矿卡市场规模预计50亿人民币(CAGR 31%) [12] - 矿卡寿命长(8-15年),更新换代慢 [12] - 矿区改造投资回报周期超3年,客户采购意愿低 [12]
清华大学最新综述!当下智能驾驶中多传感器融合如何发展?
自动驾驶之心· 2025-06-26 20:56
具身AI与多传感器融合感知的重要性 - 具身AI是以物理实体为载体,通过实时感知实现自主决策和行动能力的智能形式,在自动驾驶、机器人群体智能等领域有广泛应用,是突破AI发展瓶颈、实现通用人工智能(AGI)的关键路径 [2] - 传感器数据理解是连接物理世界与数字智能的核心环节,具身智能体需要融合视觉相机、毫米波雷达、激光雷达(LiDAR)、红外相机和IMU等多模态传感器数据以实现全景感知 [2] - 多传感器融合感知(MSFP)对实现具身AI的稳健感知和准确决策能力至关重要,例如视觉相机易受光照变化干扰,而激光雷达在雨雾天气性能会大幅衰减 [2] 现有研究的局限性 - 当前基于AI的MSFP方法在具身AI中面临跨模态数据的异质性使得特征空间难以统一的挑战 [3] - 不同传感器之间的时空异步可能导致融合误差,传感器故障(如镜头污染、信号遮挡)可能导致多模态信息的动态丢失 [3][4] - 现有综述大多面向单一任务或研究领域,如3D目标检测或自动驾驶,缺乏对多智能体融合、时间序列融合等MSFP方法多样性的考虑 [4] 传感器数据 - 相机数据可捕捉物体的颜色、形状和纹理等丰富外观特征,但对光照条件敏感,在夜间和恶劣天气下图像质量显著下降 [7] - 激光雷达(LiDAR)数据直接输出包含空间几何信息的高精度3D点云,在3D感知中具有独特优势,但对天气敏感且点云数据稀疏不均匀 [7] - 毫米波雷达数据在恶劣天气下性能良好,可直接测量物体速度,但点云更稀疏难以准确描述物体轮廓 [10] 数据集 - KITTI包含14,999张图像及相应点云,数据采集车辆配备两台灰度相机、两台彩色相机、一个Velodyne 64线LiDAR等设备 [13] - nuScenes包括700个训练场景、150个验证场景和150个测试场景,总计5.5小时,包含140万张相机图像、39万次LiDAR扫描 [13] - Waymo Open包括感知和运动数据集,感知数据集中的注释包括126万个3D边界框、118万个2D边界框 [14] 感知任务 - 目标检测是通过传感器获取的数据准确定位和识别各种类型的物体,在3D目标检测场景中需包括目标的3D位置坐标、尺寸信息和航向角 [16] - 语义分割任务旨在将场景中的每个基本单元分类为语义类别,分割模型需要为每个基本单元分配相应的语义标签或类别概率分布 [16] - 深度估计旨在从传感器数据中获取场景的深度信息,为具身智能体提供3D几何理解,对路径规划和决策控制等下游任务至关重要 [16] 多模态融合方法 - 点级融合方法实现LiDAR点云与图像数据在单个点级别的特征融合,通过集成点云的几何坐标信息与图像的语义细节提高多模态感知精度 [21] - 体素级融合方法将不规则的LiDAR点云转换为规则网格,在保留几何信息的同时实现高效处理,相机图像被集成到基于体素的方法中以获得更好的感知能力 [23] - 区域级融合方法侧重于从2D图像和其他模态聚合特定区域的信息,在模态之间的空间对齐更容易实现的场景中特别有效 [28] 多智能体融合方法 - 协作感知技术可以集成来自多个智能体和基础设施的感知数据,对解决遮挡和传感器故障问题至关重要 [34] - CoBEVT是第一个通用的多智能体多相机感知框架,通过稀疏Transformer生成BEV分割预测以进行协作处理 [34] - V2VNet引入了一个基于图神经网络的框架,用于融合来自多辆车的中间特征表示 [35] 时间序列融合 - 密集查询方法为高分辨率3D空间或BEV空间中的每个查询点分配固定的光栅化空间位置,BEVFormer通过可变形注意力机制实现多个相机视图中的自适应特征交互 [44] - 稀疏查询方法因其效率、准确性和适用于稀疏感知任务而在行业中越来越受欢迎,StreamPETR通过对象查询系统地在帧间传播长期信息 [47] - 混合查询方法结合密集和稀疏查询范式,以平衡计算效率和全面的场景理解,UniAD将感知、预测和规划集成在一个统一的框架中 [51] MM-LLM融合方法 - 视觉-语言方法结合视觉和文本数据进行语义对齐,X-Driver利用具有思维链推理和自回归建模的多模态大型语言模型实现卓越的闭环自动驾驶性能 [57] - 视觉-LiDAR-语言方法将点云特征与文本特征对齐,DriveMLM采用时间QFormer处理多视图图像,有效捕捉不同视角之间的时间动态和空间关系 [59] - MAPLM将3D LiDAR点云数据投影到BEV图像,并通过视觉编码器提取特征,使强大的视觉模型的使用成为可能 [60]