Workflow
视觉定位技术
icon
搜索文档
ICCV25!百度U-Vilar:视觉定位多任务SOTA,无痛兼容端到端框架~
自动驾驶之心· 2025-07-14 19:30
百度U-ViLAR视觉定位框架 - 核心解决城市环境中GNSS信号受建筑物干扰导致的定位不可靠问题 通过视觉定位技术实现高精度定位 [2] - 创新性采用感知不确定性(PU)和定位不确定性(LU)双模块解耦设计 突破传统方法对光照/视角敏感和大规模3D地图构建成本高的限制 [2][4] - 在nuScenes数据集横向定位召回率@1m达69.12% 较OrienterNet-S提升17.86个百分点 航向角召回率@3°达94.84% [23] 技术架构 BEV特征处理 - 采用ResNet主干网络提取多视图图像特征 通过BEVFormer投影至鸟瞰图空间 支持HD Map与OpenStreetMap双地图输入 [6][7] - 创新跨模态融合机制 交替使用自注意力(SA)和交叉注意力(CA)增强视觉与地图特征关联性 [8] 不确定性建模 - PU模块生成像素级不确定性图 通过高斯核构造软标签监督矩阵 全局关联采用交叉熵损失 局部关联使用对称交叉熵损失 [10][13][14] - LU模块对平移/旋转三自由度离散化建模 通过香农熵量化不确定性 构建3D联合概率分布实现128m×128m大范围搜索 [15][17] 性能表现 - 在SRoad复杂道路数据集(含50万+帧)中 横向定位@5m召回率达88.03% 较基线提升3.52个百分点 [22][23] - 实时性达28FPS(V100 GPU) 经优化后可在Orin平台实现15FPS 满足车载算力要求 [20] - 消融实验证实去除PU或LU模块会导致定位误差显著增加 横向MAE从0.040m恶化至0.064m [24][25] 应用前景 - 已验证支持HD Map和开源地图(OSM)双模式输入 在KITTI 39.2公里里程数据中纵向定位@5m召回率70.20% [22][23] - 未来将扩展至交叉口/高架桥等复杂场景 目标建立跨数据集统一模型 [26]
海康威视申请一种定位方法相关专利,提高对目标设备进行定位的准确性
金融界· 2025-06-28 17:05
公司专利技术 - 公司申请了一项名为"一种定位方法、装置、电子设备及存储介质"的专利,公开号CN120219481A,申请日期为2023年12月 [1] - 该专利涉及视觉定位技术领域,旨在提高目标设备定位的准确性,方法包括获取全局地图、目标图像和最新定位状态,并基于临时地图和位姿确定目标位姿 [1] 公司基本信息 - 公司成立于2001年,位于杭州市,主要从事计算机、通信和其他电子设备制造业 [2] - 公司注册资本为923319.8326万人民币 [2] 公司业务与资产 - 公司对外投资了68家企业,参与招投标项目5000次 [2] - 公司拥有商标信息833条,专利信息5000条,行政许可571个 [2]