文章核心观点 - 具身智能的核心战场正从移动、导航转向由“大脑”主导的“操作”领域,其关键在于构建独立于语言和多模态模型的“物理世界基础模型”,以实现与复杂物理世界的深度交互和自主操作能力 [1] - 自变量公司认为,具身智能并非AI模型的下游应用,而需要一种“生于物理世界、用于物理世界”的平行新范式,并已通过自研的端到端、通用型基础模型WALL-A系列在此方向取得进展,其模型在真实商业场景中展现了稳定运行能力 [7][12][13] 对具身智能本质的重新定义 - 物理世界的关键信息(如瓶盖是否拧紧)往往隐藏在“看不出来但会影响行为”的细节中,需要通过真实交互而非静态观察才能暴露 [4][6] - 物理智能要求模型能处理长行为序列并理解因果在时间中的展开,还需具备对未来进行内部推演的能力,这是静态训练的语言或多模态模型难以胜任的 [6] - 因此,需要构建与语言模型、多模态模型平行存在的“物理世界基础模型”,而非作为其下游应用 [7] 构建物理世界基础模型的方法论 - 采用端到端统一架构:信息必须在统一空间流动,以发现深层关联,避免模块化拼接导致的细节和物理直觉损失,这是实现整体性、具身理解的关键 [9][10] - 打造通用模型:让模型同时学习大量杂糅任务,迫使其发现背后的物理规律、物体属性等共性结构,从而降低学习新任务的数据需求,甚至出现“涌现” [11] - 升级损失函数:从预测动作升级为预测“多模态状态”(如视觉画面、触感变化),以强迫模型理解因果律,将物理世界复杂性压缩进模型 [12] - 模型能力体现:自研的WALL-A模型不仅能输出动作,还能进行语言对话、根据图片重建三维环境、预测未来,展现了物理世界基础模型的雏形 [12] 自研基础模型的战略选择 - 公司坚持基础模型自研,源于判断具身智能下一阶段竞争本质是数据闭环构建与模型进化能力的竞争,模型不掌握在自己手中则竞争无从谈起 [15] - 物理世界的属性无法从互联网文本习得,必须建立从数据采集到模型架构的完整自研体系,原始创新者将定义规则 [15][16] - 公司拥有自研的核心模型WALL-A和轻量化模型WALL-OSS,其架构首创了视觉语言动作模型与世界模型深度融合的系统范式,并率先实现了具身多模态思维链 [16] - 公司将WALL-OSS开源,并围绕其发起“具亮计划”黑客松,鼓励开发者跑通从数据到真机部署的完整链路,以推动技术社区发展 [16][20] 行业挑战与前景 - 机器人领域未出现类似语言模型的“涌现时刻”,因为物理世界的规律(重力、摩擦等)未被显式编码,散落在交互细节中,构建基础模型如同“重走婴儿的路” [21][22] - 构建物理世界基础模型是学习人类“做得出但说不清”的东西,这可能是智能更本源的形态,道路漫长但迷人 [22]
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
机器之心·2026-01-14 15:18