Workflow
认知地图
icon
搜索文档
让机器真正理解世界需要一张「认知地图」,中科院发布空间智能综述
机器之心· 2026-06-09 13:30
文章核心观点 - 空间智能领域的研究正从分散的任务导向,汇聚到一个统一的核心需求:智能体需要构建一个稳定、可更新、可推理的内部空间表征,即“认知地图”,以支持对复杂动态环境的长期理解、推理与交互 [2][3][4] - 认知地图是连接空间感知、推理与生成的核心机制,其应具备抽象性、全局性和持久性三种核心性质,以支撑智能体超越瞬时局部观测,实现连贯的空间智能 [9][10][12] - 从认知地图的视角,可以构建一个统一的分析框架,将空间智能分解为围绕同一内部表征展开的三个连续阶段:构建(感知)、读取(推理)和外化(生成) [13][14][17] 认知地图的定义与核心性质 - **定义**:认知地图是智能体从局部、碎片化观察中逐步构建,用于整合环境空间结构、对象关系与动态变化的统一内部空间表征,它支撑感知、推理与生成之间的统一建模 [4][9] - **抽象性**:认知地图需将原始感知输入(如像素、点云)转化为结构化的高层概念,如对象、属性、关系及拓扑结构 [10] - **全局性**:认知地图需整合不同时间和视角下的局部观察,形成跨视角一致的整体空间布局 [10] - **持久性**:认知地图是一个可被持续维护和更新的内部状态,通过记忆机制记录并更新空间信息 [10] - **价值**:这三种性质共同使认知地图能超越单纯的空间描述,真正支撑空间智能的发展,明确了系统从观测抽象到全局整合再到持续维护的基本运作模式 [12] 空间智能统一框架:认知地图的构建、推理与生成 - **统一框架**:空间感知、推理与生成是围绕认知地图展开的三个连续过程,构成了空间信息在外部环境与内部系统间的循环路径 [13][14] - **感知(构建)**:从原始传感数据中构建具有抽象性和全局性的内部空间表征,完成从物理世界到内部空间模型的转换 [15][19] - **推理(读取)**:基于已构建的认知地图进行空间推断和决策,其核心在于推理模块如何访问、解读并利用地图中的信息 [15][26] - **生成(外化)**:将内部的空间表征实现或模拟为具体的外部空间形式,如三维场景或动态世界,完成从抽象到具象的表达 [15][33] 认知地图的构建:表征范式 - **度量表征**:强调空间的几何结构和物理属性,如2D栅格图、BEV、点云、体素等,几何一致性强,适合精确空间定位任务 [20] - **关系表征**:更关注对象、区域和结构之间的拓扑关系,常用结构化图或可序列化的文本/符号图表征,易于与语言模型结合 [20] - **混合表征**:同时利用度量信息和关系信息,通过层级架构或特征融合将底层几何与高层关系结合,以同时支持空间定位和结构理解 [20] - **趋势**:认知地图从单一表征形式向度量与关系混合表征发展,反映了空间智能向更统一内部表征体系演进 [24] 基于认知地图的空间推理范式 - **Map as Embedding**:将认知地图编码为潜空间特征,作为推理模块的内部状态,支持高效检索与匹配,但可解释性较低 [27] - **Map as Prompt**:将认知地图转换为文本、视觉或多模态提示,输入给大语言模型或视觉语言模型,灵活性高但存在信息压缩瓶颈 [27] - **Map as API**:将认知地图设计为可查询、可更新、可调用的外部接口,具备强闭环交互能力,适合动态及长期规划任务,但系统复杂度高 [27][28] - **核心**:空间推理能力不仅取决于模型本身,也取决于内部地图以何种方式参与推理 [31] 认知地图的外化:空间生成 - **静态场景合成**:利用认知地图中的布局、语义和关系等先验,生成具体三维场景,可分为基于地图检索和端到端地图到场景生成两类 [33] - **动态世界模拟**:基于作为可持续更新内部状态的认知地图,模拟场景的动态演化,保持时空连续性 [33] - **趋势**:研究呈现从静态场景合成到动态世界模拟、从场景合成到世界建模的趋势,认知地图正演变为持久的生成性基础结构 [36] 应用范式与未来方向 - **应用范式**:根据智能体与系统的交互方式,可分为**开环空间认知**(如空间问答、场景生成)和**闭环空间交互**(如具身导航、操作),后者要求认知地图在感知-行动循环中被持续使用和更新 [38][45] - **未来方向**: - 实现更深层的语义抽象,表达对象身份、物理属性、功能及因果机制 [46] - 扩展全局空间理解,建立面向大规模场景的空间基础模型,从稀疏证据推断全局结构 [46] - 发展在动态环境中具有长期持久性的4D时空表征,区分短期变化与长期背景 [46] - 将认知地图发展为生成式模拟器,支持未来状态预测和反事实推演 [46] - 弥合感知与行动的鸿沟,使地图中的不确定性、预测误差能主动影响行为决策,形成紧密闭环 [46]