空间智能
搜索文档
群核科技CEO陈航:做空间智能的“卖水人” 助力空间智能落地千行百业
证券日报之声· 2025-12-09 19:39
公司战略升级与平台发布 - 公司正从3D空间软件提供商向空间智能基础设施提供商升级 使命拓展至帮助具身智能 AIGC等智能体更智能[3] - 公司系统性持续开放其底层空间智能相关能力 旨在成为行业底层技术的“卖水人” 以推动技术从“实验室技术”走向规模化产业应用[1] - 公司正式发布Aholo空间智能开放平台 整合了过去14年在空间重建 生成 编辑与理解方面的核心能力 将以底层模型和工具形式逐步对外开放[3] 核心产品与技术能力 - Aholo平台已启动内测 开发者和企业可通过API或SDK调取能力 支持通过图片 视频或全景图等多模态输入快速构建高保真全息3D空间[3] - 公司孵化的3D AI内容创作工具LuxReal正式亮相 该产品以自研的AI 3D生成模型Lux3D为底座 融合图像和视频生成模型 构建业内第一个3D Agent系统[4][5] - LuxReal通过构建3D渲染与视频增强一体化的生成管线 旨在解决当前AI视频生成“可玩大于可用”的问题 提升在电商 工业设计 游戏等领域的可落地性[5] - 公司将3D高斯技术引入AI空间训练领域 借助其重建能力全面拥抱真实数据 显著提升仿真环境的真实感与物理一致性 缩小Sim2Real差距[5] 商业合作与生态建设 - 公司与华策影视达成战略合作 将借助Aholo平台围绕虚拟片场生成与影视场景重建等方向展开合作 以提升影视制作效率并推动行业智能化转型[3] - 公司与谋先飞 地瓜机器人就空间智能训练平台SpatialVerse达成深度合作 将整合各自在仿真训练平台 云算力 空间训练数据等优势 共建机器人仿真训练体系[6] - 合作旨在攻克机器人仿真训练中场景泛化难 训练效率低 Sim2Real迁移落差大等核心挑战[6] 公司经营与资本市场动态 - 公司已于2025年8月22日更新招股书 继续推动在港交所上市进程 冲刺“全球空间智能第一股”[6] - 招股书显示 2025年上半年 公司实现扭亏为盈 经调整净利润为1783万元[6]
AI不再困于屏幕:谷歌发布Project Aura,开启物理世界智能交互新范式
环球网· 2025-12-09 17:42
产品发布与战略定位 - 谷歌正式发布XR硬件参考设计Project Aura,并同步披露Android XR操作系统的核心架构进展 [1] - 该设备由谷歌与中国AR硬件企业XREAL联合开发,被定位为“迄今最接近Android XR理想形态的硬件实现” [1] - 该产品首次赋予Gemini AI原生的空间感知能力,标志着大模型从“屏幕内智能”迈向“物理世界智能”的关键转折 [1] - Android XR的战略目标是打造一个开放、统一的扩展现实平台,让AI能够嵌入真实世界的光线、几何结构与人类活动流中 [3] - Project Aura是这一战略愿景的具象化载体,被称为“Gemini AI的第一双原生空间之眼” [3] 技术突破与核心能力 - Project Aura实现了70°光学透视视场角,这是目前消费级AR设备中最大且可用的视野 [5] - 该光学系统由XREAL自主研发的X-Prism光学系统实现,显著提升数字内容与物理环境的融合自然度 [5] - 设备搭载XREAL端到端自研的X1S空间计算芯片,集成专用NPU与低延迟视觉处理单元,构建高效推理链路 [6] - X1S芯片是Project Aura实现“本地化、实时化空间理解”的底层算力基础,区别于通用移动芯片 [6] - 多模态Gemini模型被直接集成至Android XR底层,与各类传感器形成闭环,使AI作为操作系统级服务存在 [6] - 这使得Gemini能够通过光学传感器实时构建环境语义地图、理解用户行为意图,并在三维空间中主动提供上下文服务 [3] 行业影响与生态构建 - XREAL凭借其在光波导、空间计算芯片与SLAM算法上的全栈自研能力,成为该项目的核心硬件合作伙伴 [5] - 公司创始人认为,真正的AI Agent必须硬件化,眼镜作为离人最近、具备持续感知能力的可穿戴设备,是承载下一代智能终端的天然载体 [5] - 眼镜产生的高维空间数据,将成为通向AGI(通用人工智能)的关键燃料 [5] - 下一代计算平台需要操作系统、AI模型与硬件的深度协同,中国凭借完整的制造生态与敏捷的工程能力,首次站在了定义全球标准的位置 [8] - 连接AI与物理世界的“眼睛”,正在中国加速诞生 [8] 供应链与中国智造角色 - Project Aura的核心技术链高度依赖中国智造:X-Prism光学模组由中国团队独立研发并量产 [8] - X1S芯片完成从架构设计到流片的全流程自研 [8] - 整机供应链扎根长三角,实现全球最快的硬件迭代周期 [8] - XREAL全球研发中心设于上海,正成为AI终端创新的重要策源地 [8] 未来展望与商用计划 - 根据官方路线图,Project Aura将于2026年正式商用 [8] - 随着Project Aura的落地,XR行业或将迎来从“显示设备”向“空间智能终端”的迁移 [8] - 中国硬件创新力量,站在了舞台中央 [8]
做空间智能的“卖水人”!“杭州六小龙”之群核科技,最新宣布→
证券时报· 2025-12-09 16:10
公司战略升级与定位 - 公司正从3D空间软件提供商向空间智能基础设施提供商升级 使命从帮助人在三维空间实现想象力拓展至帮助具身智能、AIGC等智能体更智能 [1] - 公司宣布系统性持续开放其底层空间智能相关能力 致力于成为行业底层技术的“卖水人” 提供“可落地”的空间智能能力 [1] - 公司发布战略全景图 系统展示整体布局 [1] 核心平台发布:Aholo空间智能开放平台 - 公司发布Aholo空间智能开放平台 整合了过去14年在空间重建、生成、编辑与理解方面的核心能力 以底层模型和工具形式逐步对外开放 [2] - Aholo平台已启动内测 开发者和企业可通过API或SDK调取能力 支持通过图片、视频或全景图等多模态输入快速构建高保真全息3D空间 [2] - 华策影视与公司达成战略合作 将借助Aholo平台围绕虚拟片场生成与影视场景重建等方向展开合作 以提升影视制作效率与艺术表现力 [2] 3D AI内容创作工具:LuxReal - 公司孵化的3D AI内容创作工具LuxReal亮相 以自研AI 3D生成模型Lux3D为底座 融合图像和视频生成模型 构建业内第一个3D Agent系统 [3] - LuxReal通过构建3D渲染与视频增强一体化的生成管线 让AI视频“理解空间” 旨在产出更稳定、更可信的内容 增强在电商、工业设计、游戏等领域的可落地性 [3] - LuxReal已开启全球内测邀请 将于12月中下旬正式启动内测 [3] 技术优势与数据积累 - 公司在空间智能领域的另一大优势在于海量可交互的空间数据 [4] - 今年公司将3D高斯技术引入AI空间训练领域 借助其重建能力全面拥抱真实数据 进一步缩小仿真到现实(Sim2Real)之间的差距 [4] 生态合作与商业化落地 - 谋先飞(Motphys)、地瓜机器人与公司的空间智能训练平台SpatialVerse达成深度合作 将整合各自在具身智能仿真训练平台、云算力、空间训练数据等优势 共建机器人仿真训练体系 [4] - XR平台PICO与公司达成生态合作 双方将基于PICO的XR硬件系统与公司的空间数据集 携手打造“世界最大的可交互XR资产库” [5] - SpatialVerse已与智元机器人、银河通用、穹彻智能、智平方、松应科技等一批具身智能企业达成合作 并拓展工业场景推出工业AI孪生平台SpatialTwin [5] 产品效率提升与财务进展 - 酷家乐上线AI智能设计平台 仅需5分钟就能完成一套全屋空间设计方案 效率提升100倍 [5] - 公司已于2025年8月22日更新港股招股书 继续推动上市进程 冲刺“全球空间智能第一股” [5] - 2025年上半年 公司实现扭亏为盈 经调整净利润为1783万元 [5] 行业背景与公司愿景 - 空间智能被认为是AI走向三维世界的关键钥匙 其加速落地急需更广泛、更开放的底层能力提供方 以推动从“实验室技术”走向规模化产业应用 [2] - 当AI加速迈向三维世界 行业最需要的是底层技术的“卖水人” 公司致力于在算力受限的现实条件下 通过生成、仿真等多元技术组合 更高效连接物理世界与数字世界 [1]
做空间智能的“卖水人”!“杭州六小龙”之群核科技,最新宣布→
证券时报· 2025-12-09 16:05
公司战略升级 - 公司宣布系统性开放其底层空间智能相关能力,致力于成为行业底层技术的“卖水人”,提供“可落地”的空间智能能力 [3] - 公司正从3D空间软件提供商逐步向空间智能基础设施提供商升级,公司使命拓展至帮助具身智能、AIGC等智能体更智能 [3] - 公司已更新招股书,继续推动在港交所上市进程,冲刺“全球空间智能第一股” [10] 核心平台与产品发布 - 发布Aholo空间智能开放平台,整合了过去14年在空间重建、生成、编辑与理解方面的核心能力,以底层模型和工具形式对外开放 [5] - Aholo平台已启动内测,开发者和企业可通过API或SDK调取能力,支持通过图片、视频或全景图等多模态输入快速构建高保真全息3D空间 [5] - 孵化的3D AI内容创作工具LuxReal亮相,以自研AI 3D生成模型Lux3D为底座,融合图像和视频生成模型,构建业内第一个3D Agent系统 [6] - LuxReal通过构建3D渲染与视频增强一体化的生成管线,旨在增强AI生成视频在电商、工业设计、游戏等领域的可落地性,已开启全球内测邀请 [7] 技术能力与数据优势 - 公司将3D高斯技术引入AI空间训练领域,借助其重建能力全面拥抱真实数据,以缩小仿真到现实(Sim2Real)之间的差距 [9] - 公司在空间智能领域拥有海量可交互的空间数据优势 [9] - 酷家乐AI智能设计平台仅需5分钟就能完成一套全屋空间设计方案,效率提升100倍 [10] 生态合作与行业应用 - 与华策影视达成战略合作,共同推进空间智能技术在影视内容创作与制作领域的前沿应用,围绕虚拟片场生成与影视场景重建等方向展开合作 [5] - 与谋先飞(Motphys)、地瓜机器人达成深度合作,共同推进机器人仿真训练解决方案的创新落地,共建机器人仿真训练体系 [9] - 与XR平台PICO达成生态合作,携手打造“世界最大的可交互XR资产库”,探索“空间智能+XR”创新生态 [9] - 空间智能训练平台SpatialVerse已与智元机器人、银河通用、穹彻智能、智平方、松应科技等一批具身智能企业达成合作 [10] - SpatialVerse拓展工业场景,推出工业AI孪生平台SpatialTwin,探索具身智能时代的人机协作新模式 [10] 财务与股东背景 - 2025年上半年,公司实现扭亏为盈,经调整净利润为1783万元 [10] - 公司已获得包括IDG资本、纪源资本、顺为资本、云启资本、经纬创投、线性资本、Hearst、Pavillion、高瓴创投、Coatue等多家知名机构的投资 [11]
“杭州六小龙”之一的群核科技发布空间智能开放平台
新浪财经· 2025-12-09 10:52
公司战略与产品发布 - 群核科技首次发布空间智能开放平台Aholo [1] - 公司CEO陈航将公司定位为AI迈向三维世界所需的“卖水人” [1] - Aholo平台将陆续开放群核底层的空间智能能力,包括空间重建、空间生成、空间编辑、空间理解 [1] 技术能力与应用领域 - Aholo平台最终可应用于3D空间创作、影视短剧、工业孪生、机器人仿真等多个领域 [1]
产业协同赋能创新,瀛通通讯与蒙通智能联手开拓AI眼镜空间智能新赛道
全景网· 2025-12-04 16:49
合作双方概况 - 瀛通通讯是一家国内智能终端领域的一体化综合性科技型企业 长期聚焦智能硬件产品创新与市场拓展 业务涵盖产品研发、制造销售、产业投资运营等多个板块 其成熟的供应链体系、严格的质控标准和广泛的市场渠道为技术成果规模化落地提供保障 [1] - 蒙通智能成立于2022年 专注于AI+AR眼镜全栈解决方案 核心技术包括FuseSpaceAI融合大模型、SpaceAIOS全栈操作系统、非DP协议适配等 核心团队成员来自金立、阿里、OPPO、日立、MTK等顶尖企业 [2] - 蒙通智能已成功服务多家全球头部品牌 成为AI眼镜赛道中成长速度最快的新锐企业之一 并已成为传音控股、软银集团、AOC等全球头部品牌的方案合作伙伴 [2] 合作核心内容 - 双方正式签署技术合作框架协议 合作以“战略协同、生态共建、未来可期”为核心原则 聚焦AI眼镜整机解决方案联合开发 共同角逐空间智能交互市场 [1] - 合作采用“框架协议+项目协议”的渐进式合作模式 明确了双方的战略伙伴关系 [2] - 合作内容围绕AI眼镜整机方案展开 蒙通智能将提供FuseSpaceAI SDK接口、SpaceAIOS系统框架、AI Agent开发指南、硬件参考设计文档及量产技术支持 [2] - 瀛通通讯将依托其在智能终端领域的供应链整合能力与精准市场洞察 推动技术方案快速走向规模化应用 [2] - 此次合作被视为基于具体项目的产品级共创 双方优势互补 有望在空间智能领域联合攻克行业技术难题 [2] 行业背景与合作意义 - 当前AI眼镜市场已进入“百镜大战”的竞争格局 但存在技术碎片化、体验同质化等行业痛点 产业发展亟待整合升级 [3] - 在产业发展早期 生态共建相较于技术独占更能加速行业进步 此次联手被视为行业“产业整合”的积极信号 [3] - 瀛通通讯的产业基础叠加蒙通智能的技术敏捷性 形成“大厂拉力+小厂推力”的组合 有望推动行业加速发展 [3] 合作后续推进 - 协议签署后 双方首个技术对接会已提上日程 [3] - 瀛通通讯将组建涵盖产品、供应链、法务的跨部门专业团队 与蒙通智能开展深度技术匹配工作 [3] - 双方将围绕具体产品定义、技术验证、成本核算等关键环节展开细致磋商 全力推动合作意向转化为实际产品成果 [3] - 双方致力于走好从协议到产品的“最后一公里” 力争为行业市场呈现亮眼成果 [3]
三闯IPO,五一视界还在吃老本
北京商报· 2025-12-03 22:15
公司上市进程与法律事项 - 公司五一视界(51World)第三次冲击资本市场,已向港交所更新招股书并获得中国证监会备案,此前曾尝试科创板与北交所[1] - 2024年发生的一起与服务提供商的仲裁案已于2025年8月22日达成和解,公司同意向对方支付700万元人民币[1][9] 财务表现与趋势 - 2025年上半年营收为5382万元人民币,同比增长62%[1][4] - 2022年至2024年全年营收逐年增长,分别为1.7亿元、2.56亿元、2.87亿元人民币[4] - 2025年上半年经调整净亏损为6717.7万元人民币,同比扩大11.4%,打破了此前亏损逐年收窄的趋势(2022年:1.32亿元,2023年:6808.1万元,2024年:4306.5万元)[1][3][4] - 毛利率呈现持续下滑趋势,从2022年的65%降至2023年的54.2%、2024年的51.1%,2025年上半年进一步降至41.1%,较2024年同期的50%下降8.9个百分点[1][4] - 销售成本大幅上涨,2025年上半年销售成本为3169.3万元人民币,同比增长90.7%,销售成本占营收的比例达到58.9%[1][4] - 2025年上半年销售成本中,用于购买软件的占比为60.5%,较2024年同期增加41.8个百分点,公司解释因提供了更多定制化解决方案,特别是硬件内容较高的产品导致成本增加[5] 成本结构与费用分析 - 2025年上半年,销售开支占营收比例为63.7%,一般及行政开支占比为85.6%,研发开支占比为56.0%[2] - 研发开支的构成发生变化,2025年上半年技术服务费(主要与外包研发工作相关)为646.9万元人民币,较2024年同期的104.3万元大幅增长520%,占研发开支的21.5%[6][7] - 研发团队规模持续缩水,从2024年1月的约130人减少至2024年底的118人,再到2025年上半年的114人[5] - 公司计划未来三年招聘约50至100名研发人员[5] 业务构成与客户分析 - 公司营收高度依赖老业务数字孪生平台51Aes,该平台在2025年上半年贡献了81.4%的营收,自公司2015年成立当年推出[1][10] - 合成数据与仿真平台51Sim于2017年推出,2025年上半年贡献营收14.8%;数字地球平台51Earth贡献营收3.9%[10] - 客户集中度呈上升趋势,来自五大客户的营收占比从2022年的23.6%增至2023年的38.3%、2024年的46.4%,2025年上半年达到51.5%[9] - 2025年上半年,数字孪生平台51Aes、合成数据与仿真平台51Sim及数字地球平台51Earth的客户数量分别为55个、17个和1个[9] 产品与战略方向 - 公司近期强调新推出的空间智能与具身智能产品方向[11] - 在空间智能方向推出了交互平台Clonova,旨在通过自然语言处理技术在沉浸式3D空间中进行互动[11] - 在具身智能方向,致力于通过仿真与合成数据技术为物理AI提供模拟训练与数据,但新产品Clonova未出现在最新招股书中,空间智能仅在未来计划部分被提及[11][12] - 行业观点认为,数字孪生业务需要底层技术进一步配合与集成才能成为可持续的商业模式[12]
技术、生态与品牌的全面换道,中国造车新势力正迈入“物理 AI”时代
观察者网· 2025-12-03 21:13
行业趋势:从技术配置到跨终端智能平台竞争 - 中国智能电动车产业竞争已从“技术配置竞争”进入“跨终端智能平台竞争”阶段,新势力正将战略重点转向“物理AI”[1] - “物理AI”旨在让AI理解、导航并与三维物理世界交互,是实现机器真正智能的关键,其发展需要超越大语言模型的“世界模型”[3] - 行业竞争正跨越边界,转向“物理世界的AI化”这一更高维度,未来的胜出者可能是能在人们生活中建立统一AI体验的系统型公司,而不仅是硬件优秀的车企[16][17] 市场基础与规模 - 2024年中国新能源汽车产销量分别达到约1288.8万辆和1286.6万辆,同比增长均超过30%,强势取代燃油车地位,为“物理AI”提供了庞大的用户规模与场景[4] - 2024年中国腕戴设备出货量超过6100万台,市场位居全球前列,可穿戴与AR/VR生态为智能眼镜等终端普及奠定基础[6] - 据测算,2025年中国低空经济市场规模预计达1.5万亿元人民币,同年机器人市场规模将突破1500亿元,两者都即将进入量产元年,为“物理AI”提供新载体[6] 主要参与者的战略与实践 - **理想汽车**:2024年交付接近50万辆,形成庞大车主样本与数据池[4];其“物理AI”战略以Livis为系统品牌与OS,贯穿车、眼镜、家庭等多物理端,以“时间线记忆+VLA(感知—理解—行动)”为技术范式[7];将全新AI眼镜定位为生态“本体”,串联车、眼镜、家庭形成“记忆与行为闭环”[9];公司研发体系新设聚焦穿戴机器人和空间机器人的部门,认为“空间交互+AI能力”是未来技术发展核心[11] - **小鹏汽车**:在2024年实现营收与交付显著增长,为AI赛道投入提供资金与规模保障[4];致力于“让车辆成为用户生活的一部分”,通过新一代VLA模型将自动驾驶的“决策闭环”扩展至更多物理形态,实现对物理世界的智能交互[9][11] - **其他参与者**:蔚来、华为虽未明确使用“物理AI”概念,但其创建的NWM、WA世界模型也展示了在辅助驾驶领域对AI控制物理世界的探索[11] 商业化与商业价值 - “物理AI”能将“购车”单次交易转化为持续的服务关系,通过加深现有车主使用场景和吸引科技敏感用户,拓展用户基数并提高长期留存[13] - 跨端技术的闭环能力使企业能够推出基于订阅、增值服务与场景化功能的商业化路径,在硬件销售外形成可持续营收来源[15] - “物理AI”的实践对外是企业技术实力的名片,对内是组织文化与执行力的佐证,有助于强化品牌与高管形象,传递明确的品牌主张[12] 技术挑战与工程难题 - 发展“物理AI”要求硬件优化续航与响应,而非简单堆算力[16] - 相较于传统大语言模型,机器人作为物理系统的全面展现,在控制端更接近甚至难于自动驾驶汽车,存在显著的工程难题[16] - “物理AI”的推广还面临法规与责任界定、用户采纳与体验教育、高投入长期博弈等多维度阻力[16]
从 LLM 到 World Model:为什么我们需要能理解并操作世界的空间智能?
海外独角兽· 2025-12-03 20:05
文章核心观点 - 大语言模型在语言理解和生成方面展现出强大能力,但仅依赖语言不足以支撑真正的智能,构建能够理解和操作世界的空间智能与世界模型成为下一代人工智能发展的关键方向[2][4] - 空间智能被定义为在三维空间中进行推理、理解、移动和交互的深层能力,与语言智能互补,是通往通用人工智能不可或缺的拼图[4] - 语言是对三维世界的“有损压缩”,而视觉和空间感知是更接近“无损”的表征方式,让AI理解像素和三维空间中的物理规律难度高于处理符号化语言[10][11] - World Labs公司推出的Marble模型是全球首个高保真度3D世界生成模型,旨在突破模型“只懂文本”的限制,具备在三维环境中定位、推理、模拟、生成和执行任务的能力[15][17] 空间智能的必要性与理论基础 - 从生物演化角度看,大自然花费5.4亿年优化动物的视觉感知与空间行动能力,而人类语言形成历史仅约50万年,忽视这5.4亿年的进化积淀仅通过语言构建通用人工智能是不合理的[7][8] - 空间智能是人类进行高级科学创造不可或缺的思维工具,DNA双螺旋结构的发现就依赖于高强度空间推理,通过在三维空间中对分子结构进行几何构建和逻辑验证而完成[12][13] - 根据多元智能理论,人类智能是多维度的,至少具备八种相互独立的智能,空间智能与语言智能并非对立而是互补关系[4][5] Marble模型的技术特点 - 模型采用多模态输入方式,用户可输入文本描述、单张图像或一组图像,并能基于照片在虚拟空间中重构3D模型[20] - 具备交互式编辑功能,用户可对生成场景下达具体修改指令,模型能根据新约束条件重新生成并调整整个3D世界,形成“生成-反馈-修改”的闭环[20][21] - 选择Gaussian Splats作为3D世界的基础原子单元,通过大量3D高斯体表示和渲染场景,实现了在移动设备上30fps甚至60fps的实时渲染能力[24][25] - 模型架构基于Transformer,其本质是集合模型而非序列模型,置换等变的特性使其天然适合处理3D空间数据[28][29] Marble模型的应用场景 - 在创意与影视领域提供精确的相机放置控制,能极大降低特效制作门槛和成本,成为电影工业强大的生产力工具[21][31] - 室内设计成为典型涌现用例,用户通过手机拍摄厨房照片即可在虚拟空间重构3D结构并随意尝试各种设计方案,无需掌握复杂CAD软件[31][32] - 在机器人领域可作为强大模拟器,生成高保真合成数据填补真实数据与互联网视频之间的鸿沟,为具身智能体提供零成本虚拟训练环境[34][35] 技术发展趋势与挑战 - 当前世界模型面临的最大挑战是视觉真实与物理真实的差距,生成看起来合理的3D场景不等于模型理解物理定律[27] - 公司正在探索将传统物理引擎与生成式模型结合的混合路径,包括通过物理引擎生成模拟数据训练模型,以及给Splats赋予物理属性等方式[27][28] - 在算力被巨头垄断的时代,学术界应专注于探索短期内看似不可行但具备长远颠覆性的研究方向,如打破硬件彩票现象,寻找替代矩阵乘法的计算原语[36][37][38]
全面战胜ReAct,斯坦福全新智能体推理框架,性能提升112.5%
36氪· 2025-12-03 10:33
核心观点 - 斯坦福与MIT研究团队推出新型AI智能体推理框架ReCAP,在长上下文任务中性能全面超越当前主流框架ReAct,解决了目标漂移、上下文断层和成本爆炸等关键问题,成为极具潜力的新一代通用推理架构 [1] 技术突破与性能表现 - ReCAP在多项基准测试中大幅领先:在Robotouille(同步)任务上取得70%成功率,较ReAct的38%提升84.2%;在Robotouille(异步)任务上取得53%成功率,较ReAct的24%提升112.5% [2][14] - 在ALFWorld任务上取得91%成功率,优于ReAct的84%;在SWE-bench Verified任务上取得44.8%成功率,优于ReAct的39.58% [8][14] - 团队严格遵循pass@1(一次通过)评测原则,不使用重试或投票,证明其在真实多步环境中能更好地保持目标一致性与执行连贯性 [10] 框架核心机制 - ReCAP通过三大机制解决长上下文任务痛点:计划前瞻分解、结构化父任务再注入、滑动窗口记忆 [13] - 核心是采用一个有记忆、有反馈的递归树结构作为模型的工作记忆区,统一了序列推理和层级推理 [1][8] - 通过单一共享上下文和滑动窗口保留最新关键历史,实现了内存占用可控的深度递归,从根本上杜绝了成本爆炸 [13] 解决的问题与行业背景 - 当前大语言模型在执行复杂长上下文任务时存在三大问题:目标漂移、上下文断层、成本爆炸 [3][6] - 自2022年ReAct框架提出后,其因示例简单、高通用性和即插即用优势,成为过去三年该领域事实上的主流与标杆 [1] - 许多复杂架构因在更换评测基准时需要大幅修改示例,表现不如ReAct稳定泛用 [1] 优势与成本权衡 - ReCAP继承了ReAct示例简单、高通用性和即插即用的优势 [1] - 其总计算成本约为ReAct的三倍,主要来自计划前瞻分解机制所需的额外LLM调用 [11] - 考虑到其在关键任务上带来的性能巨幅提升与目标一致性,这种成本增加在对准确性要求高的实际应用中是可以接受的 [11] 应用潜力与未来展望 - ReCAP是除ReAct外,又一个能在具身推理和代码编辑这两种截然不同任务上都取得稳健表现的通用推理架构 [10] - 其递归规划能力可与空间智能结合,为具身智能机器人规划复杂的长期任务序列,实现动态环境中的自主规划与可靠执行 [15] - 适用于任何依赖复杂决策回路与长期上下文记忆的大型任务,如深度研究中的文献遍历与报告生成,或复杂软件工程中的代码库管理 [12]