SLAM

搜索文档
室内环境具身智能语义建图研究综述:进展、挑战与未来方向
具身智能之心· 2025-07-30 08:02
语义建图综述核心观点 - 全面回顾室内导航中语义建图方法 涵盖传统方法到深度学习最新进展 [4] - 提出基于地图结构和语义编码的分类框架 帮助研究者系统比较不同方法 [4] - 识别当前领域三大挑战:高内存需求 计算效率低下 开放词汇表支持不足 [4] 研究方法与背景 - 智能体需构建结合几何与语义信息的内部表示 语义地图是实现复杂任务的基础 [6] - 语义地图在自动驾驶 救援机器人等领域具有基础性作用 传统技术侧重几何精度而现代研究聚焦语义丰富性 [6] - 现有综述多关注下游应用 本文首次系统梳理地图表示本身的技术演进 [6] 分类框架 - 按地图结构分为空间网格 拓扑图 密集几何图和混合图四类 [7] - 按语义编码分为显式特征(物体类别标签)与隐式特征(学习到的嵌入表示) [7] - 该框架揭示不同表示在可扩展性 泛化能力等方面的权衡关系 [7] 地图技术演进 空间网格地图 - 三维矩阵结构存储密集语义信息 适用于室内导航但内存消耗大 [34][36] - 典型方法包括CMP使用ResNet特征投影 MapNet采用LSTM聚合 [38] 拓扑地图 - 图结构表示关键地标 内存高效但缺乏几何细节 [40][42] - NTS通过在线更新节点 LM-Nav利用CLIP特征实现开放词汇查询 [45] 密集几何地图 - 点云地图直接关联三维点与语义标签 保真度高但计算成本大 [51] - 神经场将场景编码为连续函数 实现紧凑表示但训练资源密集 [52][59] 语义编码技术 显式编码 - 存储具体语义标签(如"床"类别) 可解释性强但受限于预定义词汇表 [63][65] - 应用案例包括障碍物避碰(占用网格)和物体导航(Mask R-CNN检测) [64] 隐式编码 - 封闭词汇表使用ResNet等提取特征 开放词汇表借助CLIP实现零样本识别 [69][72] - VLMap实现像素级特征投影 ConceptGraphs支持自然语言查询 [73] 评估体系 - 外在评估依赖下游任务指标(导航成功率 操作精度) [77][82] - 内在评估直接测量地图质量(交并比 语义一致性) 但缺乏标准化框架 [84][99] 未来研究方向 - 开发开放词汇表 任务无关的通用地图表示 [100] - 优化动态环境下的实时更新与轨迹预测能力 [103] - 建立混合地图结构平衡几何精度与语义关系 [104] - 制定跨场景的统一评估指标体系 [105][108]
自动驾驶之心技术交流群来啦!
自动驾驶之心· 2025-07-29 15:53
自动驾驶技术交流平台 - 公司是国内领先的自动驾驶技术交流平台 专注于自动驾驶产业 学术与职场成长等领域 [1] - 平台提供技术交流群 涵盖大模型 端到端 VLA BEV感知 多模态感知等前沿技术方向 [1] - 交流范围包括感知 规划控制 仿真测试 硬件配置等自动驾驶全产业链环节 [1] - 平台面向企业 高校研究人员开放 需提供公司/学校 昵称和研究方向信息加入 [1]
仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25
量子位· 2025-03-19 06:20
文章核心观点 - OpenGS - SLAM是基于3DGS表示的RGB - only SLAM系统,适用于无界户外场景,结合点图回归网络与3DGS表示,有精确相机姿态跟踪和出色新视图合成能力,相比其他基于3DGS的SLAM系统,在户外环境跟踪精度和鲁棒性更高,实用性强 [33][34][35] 现有基于3DGS的SLAM方法问题 - 现有基于3DGS的SLAM方法在室内场景表现出色,但用仅RGB输入处理无界户外场景面临挑战 [2] OpenGS - SLAM解决方案 整体策略 - 采用点图回归网络生成帧间一致点图,储存多标准视角3D结构,缓解预训练深度网络误差问题;将相机位姿估计与3DGS渲染集成到端到端可微管道,实现位姿和3DGS参数联合优化,提高跟踪精度 [3] - 设计自适应比例映射器和动态学习率调整策略,准确将点图映射到3DGS地图表示 [4] 具体技术细节 追踪 - 每一帧输入RGB图像用于追踪,当前帧和上一帧作为图片对输入到Pointmap回归网络进行位姿估计,再基于当前3D高斯地图进行位姿优化;关键帧处系统执行地图更新,通过自适应尺度映射器处理Pointmap插入新3D高斯点;相机位姿与3D高斯地图在局部窗口内联合优化 [6][7][8] 帧间点图回归与位姿估计 - 户外场景基于车辆摄影,运动幅度大、视角稀疏,直接优化相机位姿难收敛;OpenGS - SLAM团队提出基于帧间点图回归网络的位姿估计方法,用预训练点图回归网络生成连续帧图像点图,利用RANSAC和PnP推断两帧相对姿态 [11] 位姿优化 - 基于3DGS可微光栅化管道构建可微相机位姿优化方法,定义光度损失,通过渲染函数微分将增量位姿更新与光度损失关联,实现相机位姿端到端优化 [14][15][17] 3DGS场景表示 - 使用3DGS作为场景表示,提出自适应尺度映射器,在关键帧为地图插入新高斯点,基于点匹配关系计算连续帧相对尺度变化因子,确保场景尺度一致性 [19] 建图 高斯地图优化 - 管理局部关键帧窗口选择非冗余关键帧,在关键帧上通过联合优化窗口中高斯属性和相机位姿实现局部BA,优化通过最小化光度损失进行,采用各向同性正则化 [20][21][22] 自适应学习率调整 - 户外数据与室内SLAM数据集不同,需不同学习率衰减策略;研究人员提出基于旋转角度的自适应学习率调整策略,车辆直路行驶学习率逐步衰减,遇坡道或转弯动态提升学习率 [23][24] 实验结果 - 在Waymo数据集无界户外场景上,OpenGS - SLAM能渲染高保真新视角图片,追踪性能优,面临大转弯能稳定收敛;在新视角合成上性能最佳,追踪精度与GlORIE - SLAM相当,相比MonoGS误差降低至9.8%,提升了系统鲁棒性和准确性 [29][30][31] - 消融研究显示,自适应学习率调整和自适应尺度映射对整体性能有积极影响,Pointmap回归网络是核心支撑,对系统性能至关重要 [32]