因果世界模型
搜索文档
从预测到干预,Aether AI为什么押注因果世界模型?
机器之心· 2026-06-24 11:04
文章核心观点 - 当前基于大规模数据训练的AI模型擅长从历史数据中学习统计规律并进行预测,但在进入动态、开放的物理世界时面临根本性挑战,即模型缺乏对世界底层因果机制的理解,导致其在面对新环境、新任务时泛化能力弱、难以解释失败原因且无法有效干预世界[2][8][41] - Aether AI公司提出“因果世界模型”技术路线,旨在让AI系统从被动预测转向主动干预,通过识别真正影响结果的因果变量、理解变量间的因果结构并模拟不同干预的后果,以解决物理AI在泛化、长尾、失败归因和跨平台迁移等方面的核心难题[3][5][42] - 创始人黄碧薇教授基于其在因果AI领域十余年的学术积累,认为当前是大模型提供强大感知与表征能力、物理AI需求显性化的关键窗口期,决定将因果AI理论工程化,以Physical AI作为最硬核的落地场景进行验证和产品化[39][41][42] AI在物理世界面临的挑战与范式转变 1. **预测与因果的鸿沟**:当前AI(如大语言模型、视频生成模型、具身模型)的核心能力是从海量数据中学习统计规律以“预测下一步”,但这无法回答“为什么会发生”这一因果问题[7][8] 2. **物理世界的结构性差距**:在数字世界,预测错误可以低成本重试;但在物理世界(如自动驾驶、机器人操作),面对训练数据中极少出现的状况,仅依赖历史相关性的AI系统会变得脆弱[8] 3. **仅靠预测的AI的四类问题**:无法识别决定结果的真正变量;无法应对从未出现过的干预;任务失败时难以追溯根因;环境改变时相关关系易失效而缺乏稳定机制支持泛化[17] Aether AI的因果世界模型技术路线 1. **核心定义与目标**:将技术路线定义为“因果世界模型”,核心是让模型识别真正影响结果的变量、理解变量间的因果结构,并在采取行动前模拟不同干预可能带来的后果,从而让AI从相关性预测走向机制建模,从被动观察走向主动干预[3][5] 2. **三类核心能力**: - **因果特征表示学习**:解决“世界该如何表示”的问题,目标是在隐空间中分离出真正影响任务结果的变量,压缩掉任务无关的视觉细节噪声,形成紧凑、任务充分的动态表示[12][14] - **因果结构发现**:解决“哪些变量真正决定了结果”的问题,基于结构因果模型理论,从变量中识别真正的因果链条,区分背景噪声与真正改变结果的变量,寻找环境变化后仍稳定的机制[12][18] - **因果动力学建模**:解决“行动之后世界如何变化”的问题,关键区别在于不仅要预测下一状态,还要模拟不同干预会带来的不同后果,特别关注接触、抓取等导致动力学模式切换的关键阶段[12][19] 3. **代表性研究进展**: - **任务中心世界模型 (TC-WM)**:学习“足够表达任务、又不过度携带冗余信息”的任务中心动态表示,而非直接使用视觉基础模型的高维embedding[14][16] - **交互式物体操作**:通过Interaction-weighted Resampling方法,围绕接触前、中、后的关键阶段重采样,让模型更关注动力学模式变化的位置,在交互密集型仿真任务中取得平均19.8%的性能提升,部分任务提升超50%;真实机器人空气曲棍球实验成功率从25%提升至60%[19][20][21] - **生成式决策 (Ada-Diffuser)**:决策模型不仅要知道“什么轨迹看起来合理”,还要建模“哪些隐藏条件让这条轨迹成立”[23][25] - **跨本体动作表示 (SCAR)**:将动作视为独立表征因素,学习动作造成的“可控变化”本身,以实现跨不同机器人平台的迁移和泛化[25][27] Aether AI的四层因果AI架构 1. **Causation Transformer(最底层)**:在传统Transformer学习统计依赖的基础上,进一步识别因果影响,判断“如果改变这里,结果是否会随之改变”[28] 2. **模块化神经架构(第二层)**:按因果机制(如接触、支撑、重力、摩擦、动作影响)而非工程流程进行模块拆分,形成可复用、可组合、可迁移的模块,以支持环境变化时的机制复用[28] 3. **因果世界模型(第三层,核心)**:不仅学习状态转移预测,更追问动作改变了哪些因果变量、这些变量如何传导到结果、以及换一种干预会发生什么,使模型能在行动前模拟世界如何被改变[28][29] 4. **因果驱动智能体系统(最顶层)**:将因果世界模型用于规划、归因、记忆和恢复,使智能体能判断失败是源于感知误差、动作偏差、环境变化还是上游规划错误,并能在状态、动作或任务空间本身发生变化时,用少量新数据完成适配[28][30] 创业背景与市场窗口 1. **学术积累与工程化动机**:创始人黄碧薇教授在因果发现、因果表示学习等领域有十余年研究积累,参与推动多个因果AI工具与社区建设;她认识到验证因果世界模型在物理世界中的有效性需要远超实验室规模的工程投入,因此决定创业[36][39] 2. **市场时机成熟**: - **能力基础**:大模型证明了规模化学习的力量,为AI系统提供了更强的感知、表征和生成能力,但同时也暴露出“有规模无结构”的瓶颈,即缺乏因果层导致在物理世界中泛化能力弱、脆弱性高[41][42] - **需求显性化**:Physical AI(机器人、自动驾驶、工业自动化)正从概念走向落地,系统进入更复杂开放的环境,泛化、长尾、失败归因和跨平台迁移等从实验室问题变为真实部署中的工程痛点,对因果这类底层能力的需求变得显性[41][42] 3. **行业现状与切入点**:因果AI学术圈内创业稀少,方法论派系各自深耕但缺乏融合与工程化检验;公司选择从Physical AI切入,因为物理世界中机器人的每一次动作都是一次干预,失误会立刻暴露,是检验因果推理最硬核的课题[40][42][43]
Z Potentials|专访Aether AI黄碧薇:第三代因果AI领头人,一位不追热点的女科学家重新定义世界模型
Z Potentials· 2026-06-24 11:04
公司核心技术与愿景 - 公司Aether AI由黄碧薇于2026年创立,致力于构建因果世界模型,让AI理解世界背后的因果规律而非仅进行模式匹配[2][3] - 公司已完成约2000万美元的种子轮融资,由经纬创投领投,英诺基金、SWC Global、九合创投等机构联合参投[3] - 公司定位为“前沿实验室”,旨在建立从系统层、基础模型层到神经网络架构层的全新因果驱动范式,推动AI从“相关性驱动”走向“因果驱动”[4][6] - 公司首站落地物理人工智能领域,长远目标是将同一套因果世界模型延伸至生物、材料、金融及科学发现等多个场景[5] 创始人背景与学术路径 - 创始人黄碧薇的学术轨迹始于对“大脑如何启发AI”的兴趣,从中科院神经所的计算神经科学转向德国马普所的因果理论研究[2][8] - 在德国马普所首次接触因果理论,受辛普森悖论震撼,意识到相关性分析无法触及系统运行本质,从而决定深耕因果AI[12] - 随后前往卡内基梅隆大学深造,在因果发现与Causal AI领域进行研究,师从该领域第二代开创者Kun Zhang等人[17][19][22] - 其研究核心始终是“从更本源、更深层的角度去理解问题”,这驱动了其从计算神经科学到因果AI,再到创业的多次转向[2][29] 因果AI的技术理念与现状 - 当前大模型时代普遍依赖规模化与模式匹配,但公司认为真正的智能必须理解世界运转的因果规律[3][33] - 因果视角能让人看清问题本质,提供唯一且最本质的解决方案,例如能解释辛普森悖论并指导正确决策[12] - 在神经科学研究中,传统统计工具只能做表面关联,无法解释神经元间的功能性交互,这是促使创始人转向构建底层因果AI工具的原因[13] - 因果AI领域的研究者社区偏理论和数学化,与深度学习社区气质不同,且真正核心懂因果的人非常少[34] 世界模型的技术路径与差异 - 当前世界模型的主流路线包括3D生成、视频生成和JEPA,但公司认为这些均未触及理解物理世界因果规律的本质[41][43] - 公司定义的因果世界模型是理解状态间如何迁移、规律如何演化的“第四条路径”,旨在通过因果关系复刻物理世界的底层运行法则[4][41] - 与JEPA等路线相比,因果世界模型是系统工程,从底层定义到实现都完全不同,目标是让系统真正“懂因果”[14][45] - 公司模型架构分为四层:以因果驱动的智能体系统层、因果世界模型基座层、模块化神经网络架构层以及学习方法层[47][48][51] 技术进展与实验成果 - 内部评测显示,在机器人操作、移动和长程任务上,相比传统世界模型实现25%-50%成功率提升和5-10倍样本效率提升,并在变化下保持泛化[52] - 具体技术成果包括:任务中心表征(过滤无关信息)、隐变量恢复(感知并还原不可见影响因素)、持续学习(高效掌握新任务而不遗忘旧任务)、生成符合物理规律的视频[53][54] - 使用三层数据训练:海量视频与模拟器数据、第一人称视角操作数据、真实的机器人遥操数据用于最终对齐[56] - 团队由来自CMU、UCSD等高校的因果理论研究人员,以及具备大模型基础设施和机器人全栈工程经验的成员复合组成[57] 行业洞察与未来展望 - 公司认为当前正处在从数字世界转向物理世界的技术转折点,物理AI一旦突破将带来巨大增益,且其数据组织比科学发现、医疗金融等领域更简单[38][39][40] - 未来5到10年,AI必须理解因果规律才能保证进入家庭后的安全性与可控性,因果世界模型将驱动机器人生态、生物制药及健康等领域迎来巨大突破[59] - 公司看好物理AI的发展,认为其正处于“早上六点,天快亮了”的早期但充满希望的状态[64] - 创始人欣赏Anthropic的组织执行力与Google的长远视野和文化[61][62]