Workflow
因果世界模型(Causal World Models)
icon
搜索文档
从预测到干预,Aether AI为什么押注因果世界模型?
机器之心· 2026-06-24 11:04
文章核心观点 - 当前基于大规模数据训练的AI模型擅长从历史数据中学习统计规律并进行预测,但在进入动态、开放的物理世界时面临根本性挑战,即模型缺乏对世界底层因果机制的理解,导致其在面对新环境、新任务时泛化能力弱、难以解释失败原因且无法有效干预世界[2][8][41] - Aether AI公司提出“因果世界模型”技术路线,旨在让AI系统从被动预测转向主动干预,通过识别真正影响结果的因果变量、理解变量间的因果结构并模拟不同干预的后果,以解决物理AI在泛化、长尾、失败归因和跨平台迁移等方面的核心难题[3][5][42] - 创始人黄碧薇教授基于其在因果AI领域十余年的学术积累,认为当前是大模型提供强大感知与表征能力、物理AI需求显性化的关键窗口期,决定将因果AI理论工程化,以Physical AI作为最硬核的落地场景进行验证和产品化[39][41][42] AI在物理世界面临的挑战与范式转变 1. **预测与因果的鸿沟**:当前AI(如大语言模型、视频生成模型、具身模型)的核心能力是从海量数据中学习统计规律以“预测下一步”,但这无法回答“为什么会发生”这一因果问题[7][8] 2. **物理世界的结构性差距**:在数字世界,预测错误可以低成本重试;但在物理世界(如自动驾驶、机器人操作),面对训练数据中极少出现的状况,仅依赖历史相关性的AI系统会变得脆弱[8] 3. **仅靠预测的AI的四类问题**:无法识别决定结果的真正变量;无法应对从未出现过的干预;任务失败时难以追溯根因;环境改变时相关关系易失效而缺乏稳定机制支持泛化[17] Aether AI的因果世界模型技术路线 1. **核心定义与目标**:将技术路线定义为“因果世界模型”,核心是让模型识别真正影响结果的变量、理解变量间的因果结构,并在采取行动前模拟不同干预可能带来的后果,从而让AI从相关性预测走向机制建模,从被动观察走向主动干预[3][5] 2. **三类核心能力**: - **因果特征表示学习**:解决“世界该如何表示”的问题,目标是在隐空间中分离出真正影响任务结果的变量,压缩掉任务无关的视觉细节噪声,形成紧凑、任务充分的动态表示[12][14] - **因果结构发现**:解决“哪些变量真正决定了结果”的问题,基于结构因果模型理论,从变量中识别真正的因果链条,区分背景噪声与真正改变结果的变量,寻找环境变化后仍稳定的机制[12][18] - **因果动力学建模**:解决“行动之后世界如何变化”的问题,关键区别在于不仅要预测下一状态,还要模拟不同干预会带来的不同后果,特别关注接触、抓取等导致动力学模式切换的关键阶段[12][19] 3. **代表性研究进展**: - **任务中心世界模型 (TC-WM)**:学习“足够表达任务、又不过度携带冗余信息”的任务中心动态表示,而非直接使用视觉基础模型的高维embedding[14][16] - **交互式物体操作**:通过Interaction-weighted Resampling方法,围绕接触前、中、后的关键阶段重采样,让模型更关注动力学模式变化的位置,在交互密集型仿真任务中取得平均19.8%的性能提升,部分任务提升超50%;真实机器人空气曲棍球实验成功率从25%提升至60%[19][20][21] - **生成式决策 (Ada-Diffuser)**:决策模型不仅要知道“什么轨迹看起来合理”,还要建模“哪些隐藏条件让这条轨迹成立”[23][25] - **跨本体动作表示 (SCAR)**:将动作视为独立表征因素,学习动作造成的“可控变化”本身,以实现跨不同机器人平台的迁移和泛化[25][27] Aether AI的四层因果AI架构 1. **Causation Transformer(最底层)**:在传统Transformer学习统计依赖的基础上,进一步识别因果影响,判断“如果改变这里,结果是否会随之改变”[28] 2. **模块化神经架构(第二层)**:按因果机制(如接触、支撑、重力、摩擦、动作影响)而非工程流程进行模块拆分,形成可复用、可组合、可迁移的模块,以支持环境变化时的机制复用[28] 3. **因果世界模型(第三层,核心)**:不仅学习状态转移预测,更追问动作改变了哪些因果变量、这些变量如何传导到结果、以及换一种干预会发生什么,使模型能在行动前模拟世界如何被改变[28][29] 4. **因果驱动智能体系统(最顶层)**:将因果世界模型用于规划、归因、记忆和恢复,使智能体能判断失败是源于感知误差、动作偏差、环境变化还是上游规划错误,并能在状态、动作或任务空间本身发生变化时,用少量新数据完成适配[28][30] 创业背景与市场窗口 1. **学术积累与工程化动机**:创始人黄碧薇教授在因果发现、因果表示学习等领域有十余年研究积累,参与推动多个因果AI工具与社区建设;她认识到验证因果世界模型在物理世界中的有效性需要远超实验室规模的工程投入,因此决定创业[36][39] 2. **市场时机成熟**: - **能力基础**:大模型证明了规模化学习的力量,为AI系统提供了更强的感知、表征和生成能力,但同时也暴露出“有规模无结构”的瓶颈,即缺乏因果层导致在物理世界中泛化能力弱、脆弱性高[41][42] - **需求显性化**:Physical AI(机器人、自动驾驶、工业自动化)正从概念走向落地,系统进入更复杂开放的环境,泛化、长尾、失败归因和跨平台迁移等从实验室问题变为真实部署中的工程痛点,对因果这类底层能力的需求变得显性[41][42] 3. **行业现状与切入点**:因果AI学术圈内创业稀少,方法论派系各自深耕但缺乏融合与工程化检验;公司选择从Physical AI切入,因为物理世界中机器人的每一次动作都是一次干预,失误会立刻暴露,是检验因果推理最硬核的课题[40][42][43]