Reportify - 金融投资智能体

中关村储能产业技术联盟· 2026-06-09 13:34

自公司进入美洲市场以来，海博思创持续深化本土业务布局。此次2GWh大单的落地，标志着公司在美洲尤其是北美市场实现规模化突破的关键节点，也进一步验证了公司产品在国际头部客户中的市场认可度。展望未来，海博思创将持续深耕美洲市场，以技术实力与本土服务能力为依托，推动全球储能业务的持续跃升。相关阅读超1GWh！海博思创斩获多个海外储能订单聚焦智能组串式构网PCS、算电协同！海博思创与华为数字能源达成战略合作海博思创与SMA签署全球战略合作协议文 | 海博思创近日，海博思创成功签订合计约 2GWh 的储能项目大单，创下公司进入美国市场以来的重要里程碑。本次合作方为一家总部位于纽约的国际头部公用事业级储能开发与运营企业。海博思创将为其位于德克萨斯州等地的两座储能电站项目提供储能系统解决方案，项目将采用海博思创大储旗舰产品 HyperBlock III 5MWh储能系统，应用于电力现货套利及电网辅助服务等场景，并配套长期质保及全生命周期售后服务，充分体现了公司在大型储能项目上从设备供货到长期运维的全链条服务能力。美国是全球规模最大、增速最快的储能市场之一。近年来，随着 ...

储能业务

储能

HyperBlock III 5MWh储能系统

储能业务

储能

HyperBlock III 5MWh储能系统

王晓华辞职

中国能源报· 2026-06-09 13:32

王晓华辞去晋能控股山西电力股份有限公司（以下简称"晋控电力"）总会计师职务。 6月8日，晋控电力发布公告称，公司于近日收到公司总会计师王晓华先生的书面辞职报告，王晓华先生因工作变动申请辞去公司总会计师职务。根据《公司章程》有关规定，王晓华先生的辞职申请自送达董事会之日起生效。辞职后，王晓华先生不再担任公司及子公司其他职务。 E n d 欢迎分享给你的朋友！出品 | 中国能源报（c ne ne rg y）责编丨李慧颖来源：深圳证券交易所网站 ...

晋控电力(SZ:000767)

乌兹别克斯坦一加气站突发爆炸

中国能源报· 2026-06-09 13:32

事件概述 - 乌兹别克斯坦南部卡什卡达里亚州卡尔希区一家液化气瓶加气站发生爆炸并引发火灾，造成6人死亡、5人受伤 [1] - 爆炸导致加气站内4辆汽车和2个地下储气罐被大火烧毁，现场明火已被扑灭，伤者已送医救治 [1] 后续处理 - 乌兹别克斯坦政府已就此成立专门调查委员会 [1]

药明康德A股、港股股价大跌逾5%

第一财经· 2026-06-09 13:32

事件概述 - 2026年6月9日，药明康德A股和港股股价均大跌超过5% [3] - 股价下跌的直接原因是，美国国防部于2026年6月8日（美国时间）将药明康德列入其根据1260H条款认定的“中国军工企业”正式更新版名单中 [3] 公司回应与立场 - 药明康德发布公告回应，强调公司不符合被认定为“中国军工企业”的法定标准，认定依据与事实完全不符 [4][5] - 公司表示将立即采取措施挑战及纠正这一错误认定 [8] 业务影响分析 - 药明康德对美国市场收入依赖度高，2025年持续经营业务收入为434.2亿元，其中来自美国客户的收入达312.5亿元，占比约71.97% [7] - 行业人士分析，该事件对已签订的美国订单影响很小，但对未来新合同的签订可能存在潜在影响 [7] - 直接影响是可能丢失来自美国国防部的订单，但预计这部分订单体量很小，影响可忽略 [7] - 中长期可能产生“寒蝉效应”，导致享受美国政府拨款的客户流失、相关许可延期、尽职调查成本上升，并对企业融资及行业竞争产生不利影响 [7] - 如果后续该条款触发生物领域的其他管制法案，影响可能波及其他国际市场的业务 [7] 历史背景与公司韧性 - 此次是继2024年美国生物安全法案立法风波后，药明康德遭遇的又一次“黑天鹅”事件 [4] - 2024年受生物安全法案事件影响，公司A股及港股股价全年累计跌幅超过两成 [8] - 为应对2024年法案影响，公司曾出售其在美国及英国的细胞治疗、基因治疗业务 [8] - 2024年的生物安全法案最终并未落地实施 [8] - 公司凭借“一体化、端到端”的CRDMO经营模式，在2025年业绩创历史新高：营业收入达454.56亿元，同比增长15.84%；归母净利润达191.51亿元，同比大幅增长102.65% [8] - 2025年，公司成功通过了美国、欧盟等监管机构的50多次检查及数以百计的客户审计 [8] 未来展望 - 行业人士认为，若公司能成功申诉除名，或法案执行力度不大，则在美业务总体受影响可控 [8] - 药明康德在2026年一季报中维持全年业绩指引：预计全年整体收入达513亿元至530亿元，持续经营业务收入同比增长18%至22% [9]

人形机器人价格大跳水，比iPhone还便宜：一场关于生产力而非形态的产业竞速

AI前线· 2026-06-09 13:32

人形机器人价格与市场现状 - 人形机器人价格出现历史性转折，从一年前近百万元排队预购的工程样机，降至二手市场“5万元一车”打包清仓，部分产品单价已低于高端旗舰手机 [2] - 宇树G1价格降至8.5万元起，消费级入门款R1 Air仅售2.99万元，松延动力的Bumi价格跌至9998元 [2] - 中国人形机器人供应链国产化率已突破90%，摩根士丹利报告预测2025年全球出货的13000至16000台人形机器人中，约90%将来自中国制造商 [2] - 人形机器人实际部署比例极低，Gartner调研数据显示其“现实比例”仅为1:60，约98.36%的受访客户仍处于探索阶段，实际投入部署的仅占1.64% [2] 机器人形态与设计理念 - 未来机器人未必要和人长得一模一样，成功的机器人应改良人类形态而非简单复制 [2] - 高效的机器人外形可以是犬类、轮式或根据任务需求设计的全新形态，这些形态通常比人形更稳定、成本更低且速度更快 [3] - 亚马逊测试的Digit机器人膝盖向后弯曲，能比人更高效地在货架前下蹲；1X的Eve机器人采用轮式、自平衡底盘，在平坦室内环境中提高移动效率 [3] 当前机器人应用场景与商业化路径 - 现阶段更容易形成投资回报的机器人场景通常具有三个特点：任务边界清晰、流程可以重复、异常情况相对有限 [4] - 工业线边物流、仓储搬运和部分服务流程是相对容易落地的场景，因为这些环境比较固定 [4] - 家庭场景因任务组合分散、环境变化频繁且失误可能直接影响人员安全，对机器人模型能力和工程可靠性要求更高 [4][5] - 机器人正处于迈向规模化产业化的窗口期，已在工厂和仓库等工商业场景中跑通，可替代部分重复频率高的工作 [7] - 未来2-3年，人形机器人仍难以实现完全大规模商业化，更多是试点和小规模部署，而非全面替代劳动力 [8] - 工业机器人、仓储机器人、服务型机器人及特定任务的多功能机器人商业化路径更清楚，因其任务边界明确，投入产出更容易计算 [8] 企业采购与部署机器人的建议 - 企业采购机器人的起点应从寻找高价值、低复杂度的任务开始，而非“买一个人形机器人” [8] - 应将机器人视为一个运营改造项目，而非单纯的硬件采购，需考虑现场流程、空间布局、IT/OT集成、员工协作等 [8] - 建议先试点再扩展，从一两个小封闭场景开始，拿到真实的生产力结果后再复制 [8] - 建议先考虑成熟的品类，如AMR、机械臂、协作机器人，然后长期追踪人形机器人的成熟度 [8] 机器人核心技术路线：VLA与世界模型 - VLA是通用机器人模型目前比较成熟的技术路线，它结合视觉、语言和动作，让机器人能够结合环境信息和任务指令生成相应动作 [9] - 语言模型为机器人提供语义理解、常识和任务规划能力 [11] - VLA模型的逻辑是先有泛化能力，再逐个场景突破可靠性，区别于以往先解决特定场景高可靠性再试图泛化的范式 [11] - 世界模型提供了另一种思路，让系统学习物理世界中的状态变化和因果关系，并对动作可能产生的结果进行预测，不一定依赖语言作为中间层 [11] - 当前通用机器人和人形机器人的前沿路线仍以VLA为主，世界模型更多用于合成数据生成、仿真、评估和辅助规划 [12] - 未来一两年，VLA大概率仍是机器人动作模型的主体，但世界模型会逐步融入VLA系统，长期更可能出现VLA与世界模型的融合 [12] - VLA是目前最接近工程化落地的通用机器人技术路线之一，在仓储、制造等边界相对明确的场景中已展现出较好的实用价值 [12] 机器人硬件关键部件：灵巧手 - 对于需要操作物体的机器人，末端执行器至关重要；在通用操作场景中，灵巧手尤其关键 [14] - 灵巧手必须有足够的自由度、能够进行精细操作，并且可以适应不同物体的抓取 [14] - 灵巧手的难点不只在增加自由度，对于工业应用而言，更重要的是在有限空间内兼顾抓取精度、力量输出、耐久性和维护成本 [14] - 一些海外高端灵巧手价格较高，动辄几万甚至几十万元，较难大规模部署；部分千元级或开源入门产品在端部力量输出、耐久性和感知精度等方面仍需进一步验证 [15] 机器人产业面临的挑战 - 核心瓶颈之一是高质量数据不足，训练机器人的真实操作数据（如遥操数据）需要付出不菲的成本 [15] - 模拟与真实世界存在鸿沟，仿真数据虽能降低成本、易规模化，但面对现实中微小的摩擦力、材质或光影变化，虚拟环境中学到的控制策略可能失效 [16] - 存在“具身鸿沟”，人的身体和机器人的身体不同，将人类行为视频或动作数据直接迁移到机器人上效率会受到很大影响 [16] - 更现实的路线是建立混合数据策略：以真实机器人交互数据为核心，结合人类行为数据以及仿真/合成数据 [17] - 成本是机器人产业面临的挑战之一，但中国供应链是巨大优势，宇树科技最便宜的人形机器人R1 Air价格已做到3万元人民币以下 [17]

业界首次：DeepSeek-V4 基于国产AI芯片+SGLang RBG的云原生推理方案在招商银行落地

AI前线· 2026-06-09 13:32

文章核心观点 - 大模型推理服务（如DeepSeek-V4 Flash）的部署正从单机转向复杂的分布式架构（如PD分离+大EP），但Kubernetes原生工作负载原语无法满足其多角色协作、拓扑敏感、快速可靠升级和故障联动等需求 [2] - 招商银行基于SGLang RBG组件，在国产AI芯片上成功落地了DeepSeek-V4 Flash大EP推理服务，重点解决了动态端口分配、服务发现、多级故障自愈与原地升级四大核心工程挑战 [2] 大EP部署的挑战 - 模型参数量达数百B级别，单机无法承载，需采用MoE架构并通过EP并行计算，同时将推理拆分为Prefill和Decode两个阶段，由Router统一调度，构成PD分离+大EP架构 [4] - 基于Kubernetes纳管异构算力卡时，其部署与运维的工程化复杂度远超传统无状态微服务 [4] 多角色拓扑的配置复杂度 - 大EP部署是三级嵌套拓扑结构：最外层是角色（Router、Prefill、Decode），中间层是每个角色的多个实例组，最内层是每个实例内的多个Worker Pod（如1个Leader + 15个Worker） [6] - Kubernetes原生Deployment和StatefulSet无法表达这种跨角色的拓扑依赖关系，导致需手动维护多组YAML配置并硬编码网络引用，运维复杂且易错 [6] - 以2 Prefill + 2 Decode部署为例，Router启动参数需硬编码32个Prefill和32个Decode端点地址，错误将导致服务异常 [7] hostNetwork下的端口管理 - 为满足Prefill和Decode间KV Cache传输对带宽和延迟的极高要求，需使用RDMA，这要求Pod以hostNetwork模式运行 [9] - hostNetwork模式带来同节点端口冲突问题，传统做法限制每个节点只跑一个推理Pod，牺牲了资源灵活性和弹性伸缩能力 [10] - 引入动态端口分配后，Router如何获知下游节点的实际端口成为新挑战，Kubernetes Service在hostNetwork模式下无法很好工作 [10] 服务发现的时序依赖 - 服务发现存在启动顺序依赖：EP并行要求同一实例内所有Worker必须同时就绪，Prefill和Decode需互相发现，Router需等待所有下游节点就绪 [12] - 地址解析存在竞态问题：若依赖启动时DNS查询，可能因目标Pod未就绪而解析失败或获取陈旧地址，在动态扩缩容场景下易引发级联启动失败 [12] 故障域的级联效应 - 故障传播呈三级级联特征：1) 实例内级联：集合通信库无容错能力，单个Worker故障可导致整个通信组不可用；2) 跨角色级联：Prefill和Decode间通过Bootstrap server和RDMA QP缓存建立连接，单个节点故障重启无法自动清理残留状态，需实例级整体重建；3) 重启风暴：局部故障可能引发连锁重启，导致服务SLA下降和恢复时间延长 [14][15][16] - Kubernetes原生的restartPolicy: Always无法应对这种多层级、跨组件的故障传播 [17] 异构AI芯片适配的复杂度高 - 适配复杂度高源于两点：1) 部署芯片的不确定性：为追求资源利用率，需动态选择部署目标，要求方案能兼容多种国产AI芯片；2) 资源变动引起的迁移：模型需能在不同国产AI芯片间灵活迁移，要求部署方案抹平底层硬件差异 [20] 升级的高昂代价 - 传统Kubernetes滚动更新对大模型推理代价极高：Pod重建需经历完整生命周期，对于DeepSeek-V4 Flash，仅模型加载就需要数分钟，且AI芯片资源重新调度存在不确定性 [21] - 存在跨角色版本一致性问题：Prefill和Decode间的数据传输协议可能因框架版本不同而不兼容，传统Deployment滚动更新无法保证两个独立工作负载的更新进度同步 [21] 方案选型：为什么是RBG - SGLang RBG是专为分布式推理工作负载设计的Kubernetes API扩展，核心抽象是“角色组” [23] - 选择RBG主要基于三点：1) 对“hostNetwork + 国产AI芯片 + PD分离”场景的工程化封装最完整，直接提供了动态端口分配、服务发现ConfigMap等能力；2) 支持原地升级语义，可在资源紧张的生产环境中保留调度位置和AI芯片绑定、只换镜像；3) 不侵入推理框架，轻量无依赖，部署成本低 [25][26] 基于RBG的部署实践 - 整体拓扑通过一个RoleBasedGroup CR统一定义和管理三个角色（Router、Prefill、Decode），Controller自动完成端口分配、服务发现ConfigMap生成及故障自愈重建 [27] - 部署配置示例：Router组1个实例，Prefill组2个实例，Decode组2个实例，每个实例跨16张NPU [30] - 引入动态端口分配和服务发现机制后，运维人员只需关注业务语义配置，极大降低了运维工作量 [31] 生产注意事项 - RDMA网络要求：需确保RDMA设备正确挂载到容器中 [33] - 健康检查配置：为每个推理Pod配置readinessProbe（判断模型加载完成）和livenessProbe（检测服务卡死），RBG自愈机制依赖这些Probe [33] - PID 1与信号传播：建议引入tini或使用exec启动，确保信号正确转发和孤儿进程回收，这是实现原地升级优雅停流的前提 [34][35] 高级特性：动态端口分配 - RBG Controller引入全局端口分配器，采用随机分配+范围隔离策略，解决hostNetwork模式下的端口冲突和发现难题 [37][38] - 采用两级作用域设计：RoleScoped端口（角色内一致）和PodScoped端口（每个Pod不同），Controller将分配的端口以环境变量形式注入容器 [39] - 支持跨Pod端口引用，Controller自动解析引用并注入环境变量，使同一节点可调度多个推理副本，支持超分和弹性伸缩 [40][41] 高级特性：服务发现与EngineRuntime - RBG通过三层递进机制解决服务发现难题：1) 环境变量注入；2) 拓扑ConfigMap（挂载到/etc/rbg/config.yaml）；3) 组件级发现（通过annotation声明引用） [44][45] - 通过ClusterEngineRuntimeProfile CRD实现运行时配置（如驱动初始化、设备挂载）与推理服务定义的解耦，便于硬件适配 [46][47] - EngineRuntime机制提供统一服务注册和Metrics归一化能力，通过注入Sidecar实现，使服务注册不依赖外部中间件，并使不同推理引擎的指标命名标准化，简化监控和弹性伸缩配置 [48][49][50][51][52] 高级特性：多级故障自愈 - RBG在RoleInstance级别实现重启策略，默认策略是当实例中任一Pod故障时，整个实例的所有Pod一起重建，以应对故障的级联传播 [57][60] - 设计防级联保护机制，通过双层守卫（内存LRU缓存和API Server持久化Condition）防止故障引发集群重启风暴 [61] - 通过CoordinatedPolicy CRD管理跨角色协调，确保在滚动更新或扩缩容时，Prefill和Decode保持步调一致，防止版本不兼容 [62] 高级特性：原地升级 - 传统Pod重建升级代价高：模型加载需数分钟，且AI芯片资源调度存在不确定性 [63] - RBG原地升级核心思路是只替换容器镜像，保持Pod的调度位置、IP地址、挂载卷不变，显著缩短升级时间 [64] - 提供三种更新策略：RecreatePod（传统方式）、InPlaceIfPossible（优先尝试原地升级，无法则降级，推荐生产策略）、InPlaceOnly（强制原地升级） [67][68] - 升级流程包含宽限期（Grace Period）用于优雅停流，并通过ImageID变化精确判断完成状态 [69] - 生产收益：将SGLang从0.5.8升级到0.5.9时，单实例升级耗时从5-8分钟缩短至3-4分钟，整体升级时间和服务影响窗口显著缩短 [72] 实践成效与局限性 - 主要改善：部署配置量减少约90%，突破单节点单实例限制，故障恢复时间（MTTR）缩短一个数量级，框架升级耗时缩短约40%且更可预测，引擎/算力卡切换时上层配置零改动 [73] - 局限性：端口分配存在理论冲突风险，服务发现存在短暂不一致窗口，原地升级能力目前仅支持容器镜像变更，跨角色故障联动依赖推理框架自身支持 [78] 行业趋势与展望 - LLM推理基础设施正从“单一框架+单一硬件”向“多框架+多硬件+多拓扑”的异构集群演进 [74] - RBG将“角色”作为基本编排单元，将“角色组”作为服务治理的原子粒度，该抽象足够通用，可适配PD分离、MoE分布式、Pipeline并行等多种推理架构 [74] - 后续工作方向：在RBG基础上增强弹性伸缩能力，以及持续参与上游社区建设 [74]

DeepSeek-V4 Flash大EP推理服务

DeepSeek-V4 Flash大EP推理服务

SGLang RBG

被美国防部列入中国军工企业名单，阿里巴巴、百度、药明康德回应

21世纪经济报道· 2026-06-09 13:31

阿里巴巴 6月9日在港交所公告，公司注意到美国国防部已将阿里巴巴集团列入中国军工企业名单。美国国防部不得直接或间接从中国军工企业名单上实体采购商品、服务或技术。本公司认为将其纳入中国军工企业名单是一个错误。将阿里巴巴集团列入该名单并无任何依据。阿里巴巴集团并非中国军工企业，也未参与任何军民融合战略。对于任何试图歪曲本公司形象的行为，本公司将采取一切可行的法律行动。药明康德 6月9日在港交所公告，公司注意到，2026年6月8日（美国时间），美国国防部错误地将药明康德列入其根据1260H条款认定的"中国军工企业"正式更新版名单中。将药明康德列入该更新版名单的认定，以及该认定的所谓依据，显然是错误的，药明康德将立即采取措施挑战及纠正这一错误认定。截至6月9日13:25，阿里巴巴港股跌0.67%，报117.9港元/股。截至6月9日13:25，药明康德港股跌5.28%，报115港元/股。百度 6月9日在港交所公告，公司获悉，美国国防部已发布《关于指定中国军工企业的通知》，根据该通知，国防部副部长已将本公司列入国防部的中国军工企业名单。由于公司既不是中国军工企业，也不是中国国防工业的军民融合 ...

中国军工企业名单

入职第三年，团队连斩CVPR三奖：南加州王越的PSI Lab做对了什么？

机器之心· 2026-06-09 13:30

机器之心发布在南加州大学，王越的 PSI Lab（Physical Superintelligence Lab）是过去两三年里具身智能方向上升最快的年轻团队之一。王越 2022 年从 MIT EECS 博士毕业，毕业前曾在 NVIDIA 自动驾驶研究组做研究科学家；2023 年入职 USC 计算机系任助理教授，并随即创办 PSI Lab。读博期间，他曾获得 2020 年 NVIDIA Graduate Fellowship；任教之后，又陆续获得 Toyota Young Faculty Researcher、Powell Faculty Fellowship 等荣誉。他的早期代表作包括点云理解经典工作 DGCNN、DCP ，以及自动驾驶 3D 感知方法 DETR3D 。其中，DGCNN 是点云深度学习里绕不开的一篇论文，也长期位列 ACM Transactions on Graphics 高引用论文前列。 PSI Lab 成立时间不长，但学生团队的产出密度很高。过去两三年，组内学生已经拿到 NVIDIA Fellowship、Qualcomm Fellowship、Capital One、Annen ...

Meta蔡志鹏新作VLM³：全面揭示三维视觉的Bitter Lesson

机器之心· 2026-06-09 13:30

文章核心观点 - Meta公司发布的研究工作VLM³证明，标准的视觉语言模型架构配合规模化数据，是解决三维视觉任务的最简单有效范式，无需针对特定任务设计复杂架构、损失函数或数据增强 [1][9] - 该方法在多项三维视觉任务上达到或超越了专家视觉模型的性能，同时大幅领先于其他先进的视觉语言模型，颠覆了传统三维视觉学习范式 [5][7][17] 研究背景与问题 - 当前先进的视觉语言模型在语义理解等任务上表现优异，但在三维视觉任务上表现不佳 [2] - 专家视觉模型凭借专门设计，在绝对深度估计等三维理解任务上已达到超越人类的精度 [2][4] - 这引出了核心问题：视觉语言模型是否无法在三维视觉学习上替代专家模型 [5] 研究方法与设计 - VLM³采用极简设计，仅需对标准视觉语言模型进行两项归一化处理：相机焦距归一化和像素空间归一化 [7] - 该方法无需改变视觉语言模型的基础架构，也无需在图像上渲染标记，仅使用标准架构和基于文字的监督微调训练 [9] - 研究推翻了传统认知，表明无需依赖回归也能学会精细的三维理解 [10] 性能表现与对比 **对比其他视觉语言模型** - 在单目深度估计任务上，将DepthLM的准确率从84提升至90 [12] - 在目标级三维理解任务上，使用相同训练数据超越SpatialRGPT，且模型参数少一半（4B vs 8B） [13] - 在多视角几何任务上，如像素匹配及相机姿态估计，远超Qwen3-vl-32B模型 [14] - 具体数据：在单目深度估计的Average指标上，Ours-4b达到0.904，显著高于DepthLM-7B的0.838和Qwen3-vl-72B的0.219 [15] - 在目标级三维理解的Overall准确率上，Ours-4b达到91.35，高于SpatialRGPT-8B的89.80和Qwen3-vl-32B的76.98 [15] - 在像素匹配的平均端点误差上，Ours-4b为15.37，远低于Qwen3-vl-32B的160.27 [15] - 在相机姿态估计的平均AUC@30°上，Ours-4b为94.0，远高于Qwen3-vl-32B的7.8 [15] **对比专家视觉模型** - 在单目深度估计任务上，匹配了UniDepthV2及MoGe-2的性能 [5][7] - 在像素匹配任务上，超越了DKM和RoMa [5][7] - 在相机姿态估计任务上，匹配了DA3，并超越了VGGT [5][7] - 具体数据：在单目深度估计的DDAD数据集上，Ours-4b为0.818，与UniDepthV2的0.882和MoGe-2的0.856相近 [16] - 在相机姿态估计的平均AUC@30°上，Ours-4b为94.0，与DA3-GIANT的94.6相近，高于VGGT的88.0 [16] 研究意义与影响 - 揭示了三维视觉学习的“苦涩教训”：规模化数据与通用模型架构是关键，人为的特定任务设计并非必需 [1][9] - 使得三维视觉学习能够融入视觉语言模型的大规模预训练框架，实现与其他视觉任务的兼容，并能遵循类似的缩放定律 [9][17] - 为在机器人、自动驾驶、增强现实等场景中构建统一的多模态推理系统提供了新的可能性 [19]

Meta Platforms(US:META)

三维视觉学习

视觉语言模型

Artificial Intelligence

VLM³

三维视觉学习

视觉语言模型

Artificial Intelligence

VLM³

让机器真正理解世界需要一张「认知地图」，中科院发布空间智能综述

机器之心· 2026-06-09 13:30

文章核心观点 - 空间智能领域的研究正从分散的任务导向，汇聚到一个统一的核心需求：智能体需要构建一个稳定、可更新、可推理的内部空间表征，即“认知地图”，以支持对复杂动态环境的长期理解、推理与交互 [2][3][4] - 认知地图是连接空间感知、推理与生成的核心机制，其应具备抽象性、全局性和持久性三种核心性质，以支撑智能体超越瞬时局部观测，实现连贯的空间智能 [9][10][12] - 从认知地图的视角，可以构建一个统一的分析框架，将空间智能分解为围绕同一内部表征展开的三个连续阶段：构建（感知）、读取（推理）和外化（生成） [13][14][17] 认知地图的定义与核心性质 - **定义**：认知地图是智能体从局部、碎片化观察中逐步构建，用于整合环境空间结构、对象关系与动态变化的统一内部空间表征，它支撑感知、推理与生成之间的统一建模 [4][9] - **抽象性**：认知地图需将原始感知输入（如像素、点云）转化为结构化的高层概念，如对象、属性、关系及拓扑结构 [10] - **全局性**：认知地图需整合不同时间和视角下的局部观察，形成跨视角一致的整体空间布局 [10] - **持久性**：认知地图是一个可被持续维护和更新的内部状态，通过记忆机制记录并更新空间信息 [10] - **价值**：这三种性质共同使认知地图能超越单纯的空间描述，真正支撑空间智能的发展，明确了系统从观测抽象到全局整合再到持续维护的基本运作模式 [12] 空间智能统一框架：认知地图的构建、推理与生成 - **统一框架**：空间感知、推理与生成是围绕认知地图展开的三个连续过程，构成了空间信息在外部环境与内部系统间的循环路径 [13][14] - **感知（构建）**：从原始传感数据中构建具有抽象性和全局性的内部空间表征，完成从物理世界到内部空间模型的转换 [15][19] - **推理（读取）**：基于已构建的认知地图进行空间推断和决策，其核心在于推理模块如何访问、解读并利用地图中的信息 [15][26] - **生成（外化）**：将内部的空间表征实现或模拟为具体的外部空间形式，如三维场景或动态世界，完成从抽象到具象的表达 [15][33] 认知地图的构建：表征范式 - **度量表征**：强调空间的几何结构和物理属性，如2D栅格图、BEV、点云、体素等，几何一致性强，适合精确空间定位任务 [20] - **关系表征**：更关注对象、区域和结构之间的拓扑关系，常用结构化图或可序列化的文本/符号图表征，易于与语言模型结合 [20] - **混合表征**：同时利用度量信息和关系信息，通过层级架构或特征融合将底层几何与高层关系结合，以同时支持空间定位和结构理解 [20] - **趋势**：认知地图从单一表征形式向度量与关系混合表征发展，反映了空间智能向更统一内部表征体系演进 [24] 基于认知地图的空间推理范式 - **Map as Embedding**：将认知地图编码为潜空间特征，作为推理模块的内部状态，支持高效检索与匹配，但可解释性较低 [27] - **Map as Prompt**：将认知地图转换为文本、视觉或多模态提示，输入给大语言模型或视觉语言模型，灵活性高但存在信息压缩瓶颈 [27] - **Map as API**：将认知地图设计为可查询、可更新、可调用的外部接口，具备强闭环交互能力，适合动态及长期规划任务，但系统复杂度高 [27][28] - **核心**：空间推理能力不仅取决于模型本身，也取决于内部地图以何种方式参与推理 [31] 认知地图的外化：空间生成 - **静态场景合成**：利用认知地图中的布局、语义和关系等先验，生成具体三维场景，可分为基于地图检索和端到端地图到场景生成两类 [33] - **动态世界模拟**：基于作为可持续更新内部状态的认知地图，模拟场景的动态演化，保持时空连续性 [33] - **趋势**：研究呈现从静态场景合成到动态世界模拟、从场景合成到世界建模的趋势，认知地图正演变为持久的生成性基础结构 [36] 应用范式与未来方向 - **应用范式**：根据智能体与系统的交互方式，可分为**开环空间认知**（如空间问答、场景生成）和**闭环空间交互**（如具身导航、操作），后者要求认知地图在感知-行动循环中被持续使用和更新 [38][45] - **未来方向**： - 实现更深层的语义抽象，表达对象身份、物理属性、功能及因果机制 [46] - 扩展全局空间理解，建立面向大规模场景的空间基础模型，从稀疏证据推断全局结构 [46] - 发展在动态环境中具有长期持久性的4D时空表征，区分短期变化与长期背景 [46] - 将认知地图发展为生成式模拟器，支持未来状态预测和反事实推演 [46] - 弥合感知与行动的鸿沟，使地图中的不确定性、预测误差能主动影响行为决策，形成紧密闭环 [46]