语义建图综述核心观点 - 全面回顾室内导航中语义建图方法 涵盖传统方法到深度学习最新进展 [4] - 提出基于地图结构和语义编码的分类框架 帮助研究者系统比较不同方法 [4] - 识别当前领域三大挑战:高内存需求 计算效率低下 开放词汇表支持不足 [4] 研究方法与背景 - 智能体需构建结合几何与语义信息的内部表示 语义地图是实现复杂任务的基础 [6] - 语义地图在自动驾驶 救援机器人等领域具有基础性作用 传统技术侧重几何精度而现代研究聚焦语义丰富性 [6] - 现有综述多关注下游应用 本文首次系统梳理地图表示本身的技术演进 [6] 分类框架 - 按地图结构分为空间网格 拓扑图 密集几何图和混合图四类 [7] - 按语义编码分为显式特征(物体类别标签)与隐式特征(学习到的嵌入表示) [7] - 该框架揭示不同表示在可扩展性 泛化能力等方面的权衡关系 [7] 地图技术演进 空间网格地图 - 三维矩阵结构存储密集语义信息 适用于室内导航但内存消耗大 [34][36] - 典型方法包括CMP使用ResNet特征投影 MapNet采用LSTM聚合 [38] 拓扑地图 - 图结构表示关键地标 内存高效但缺乏几何细节 [40][42] - NTS通过在线更新节点 LM-Nav利用CLIP特征实现开放词汇查询 [45] 密集几何地图 - 点云地图直接关联三维点与语义标签 保真度高但计算成本大 [51] - 神经场将场景编码为连续函数 实现紧凑表示但训练资源密集 [52][59] 语义编码技术 显式编码 - 存储具体语义标签(如"床"类别) 可解释性强但受限于预定义词汇表 [63][65] - 应用案例包括障碍物避碰(占用网格)和物体导航(Mask R-CNN检测) [64] 隐式编码 - 封闭词汇表使用ResNet等提取特征 开放词汇表借助CLIP实现零样本识别 [69][72] - VLMap实现像素级特征投影 ConceptGraphs支持自然语言查询 [73] 评估体系 - 外在评估依赖下游任务指标(导航成功率 操作精度) [77][82] - 内在评估直接测量地图质量(交并比 语义一致性) 但缺乏标准化框架 [84][99] 未来研究方向 - 开发开放词汇表 任务无关的通用地图表示 [100] - 优化动态环境下的实时更新与轨迹预测能力 [103] - 建立混合地图结构平衡几何精度与语义关系 [104] - 制定跨场景的统一评估指标体系 [105][108]
室内环境具身智能语义建图研究综述:进展、挑战与未来方向
具身智能之心·2025-07-30 08:02