Workflow
物理世界基础模型
icon
搜索文档
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
机器之心· 2026-01-14 15:18
文章核心观点 - 具身智能的核心战场正从移动、导航转向由“大脑”主导的“操作”领域,其关键在于构建独立于语言和多模态模型的“物理世界基础模型”,以实现与复杂物理世界的深度交互和自主操作能力 [1] - 自变量公司认为,具身智能并非AI模型的下游应用,而需要一种“生于物理世界、用于物理世界”的平行新范式,并已通过自研的端到端、通用型基础模型WALL-A系列在此方向取得进展,其模型在真实商业场景中展现了稳定运行能力 [7][12][13] 对具身智能本质的重新定义 - 物理世界的关键信息(如瓶盖是否拧紧)往往隐藏在“看不出来但会影响行为”的细节中,需要通过真实交互而非静态观察才能暴露 [4][6] - 物理智能要求模型能处理长行为序列并理解因果在时间中的展开,还需具备对未来进行内部推演的能力,这是静态训练的语言或多模态模型难以胜任的 [6] - 因此,需要构建与语言模型、多模态模型平行存在的“物理世界基础模型”,而非作为其下游应用 [7] 构建物理世界基础模型的方法论 - **采用端到端统一架构**:信息必须在统一空间流动,以发现深层关联,避免模块化拼接导致的细节和物理直觉损失,这是实现整体性、具身理解的关键 [9][10] - **打造通用模型**:让模型同时学习大量杂糅任务,迫使其发现背后的物理规律、物体属性等共性结构,从而降低学习新任务的数据需求,甚至出现“涌现” [11] - **升级损失函数**:从预测动作升级为预测“多模态状态”(如视觉画面、触感变化),以强迫模型理解因果律,将物理世界复杂性压缩进模型 [12] - **模型能力体现**:自研的WALL-A模型不仅能输出动作,还能进行语言对话、根据图片重建三维环境、预测未来,展现了物理世界基础模型的雏形 [12] 自研基础模型的战略选择 - 公司坚持基础模型自研,源于判断具身智能下一阶段竞争本质是数据闭环构建与模型进化能力的竞争,模型不掌握在自己手中则竞争无从谈起 [15] - 物理世界的属性无法从互联网文本习得,必须建立从数据采集到模型架构的完整自研体系,原始创新者将定义规则 [15][16] - 公司拥有自研的核心模型WALL-A和轻量化模型WALL-OSS,其架构首创了视觉语言动作模型与世界模型深度融合的系统范式,并率先实现了具身多模态思维链 [16] - 公司将WALL-OSS开源,并围绕其发起“具亮计划”黑客松,鼓励开发者跑通从数据到真机部署的完整链路,以推动技术社区发展 [16][20] 行业挑战与前景 - 机器人领域未出现类似语言模型的“涌现时刻”,因为物理世界的规律(重力、摩擦等)未被显式编码,散落在交互细节中,构建基础模型如同“重走婴儿的路” [21][22] - 构建物理世界基础模型是学习人类“做得出但说不清”的东西,这可能是智能更本源的形态,道路漫长但迷人 [22]
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
具身智能之心· 2025-12-22 09:22
文章核心观点 - 具身智能模型应被视为一个独立于、平行于语言模型和多模态模型的全新基础模型,是专门为物理世界构建的智能底座 [1][7][60] 物理世界与虚拟世界的本质差异 - 物理世界充满连续性、随机性、不完全可观测性以及大量与力、接触和时序强相关的过程,而虚拟世界(语言/多模态模型所面对)是高度可复现、低随机性的符号世界 [2][10] - 物理事件具有高度随机性,例如用相同的角度和力度推一个杯子,十次可能停在十个不同的地方,这在虚拟世界中几乎不会发生 [10][11][12] - 现有的以语言和视觉为中心的模型架构、训练方法和数据能力,难以精确刻画物理世界的高度随机性现象 [12][16] 现有技术范式的局限性与新模型必要性 - 沿用以语言和视觉为中心的建模范式存在结构性错位,语言和视觉并非描述动作和物理过程的理想工具 [3][16] - 语言只能描述长序列(如10秒以上)事件,难以描述精细操作(如炒菜)[16] - 图像精度优于语言,但仍面临工具使用、遮挡等问题,大量涉及力和接触的过程无法靠语言和图像描述 [18][19] - 因此需要“另起炉灶”,重新训练一个专门供物理世界使用的基础模型,而非仅在现有模型上做微调 [20] 模型架构与学习范式的转变 - 感知和决策层面需要转变思路,人类在物理世界中的学习方式(如Active Perception, Interactive Perception)与虚拟世界中的静态统计学习范式有根本不同 [24][27][28][29] - 物理世界学习通过带有时序、因果和空间信息的连续观察流,以及与环境的主动互动实现,这应是多模态模型未来的重要发展方向 [27][28][29] - 坚持静态、固定的数据学习方式,无法实现人类般高效、节省数据和算力的学习效果 [30] 具身智能基础模型的潜力与影响 - 以十年为周期看,具身智能基础模型有可能反过来吞噬现有多模态模型的生存空间 [12][31] - 构建统一的基础模型应是完全端到端的,这已成为行业共识 [12][32] - 需要设计专门考虑端侧部署和推理的模型架构,以解决推理速度等权衡问题,而非沿用旧架构 [33] - 具身智能模型应是一个集成了语言能力、世界模型能力、视频生成能力和三维重现能力的统一模型 [39][40] 数据与Scaling Law - 数据的Scaling Law在机器人领域被认为是最困难的事情之一 [46] - 现实世界的数据应是最主要的来源,训练应分阶段(预训练、后训练),并发现了第三个Scaling Law:在推理时通过思维链等方式拓展模型能力 [48] - 物理世界适合持续学习范式,即端侧实时更新数据,进行体验式学习,这本质优于集中式批次训练,但带来体系架构、系统和硬件上的新挑战 [51][52] 软硬一体与AI定义硬件 - 需要让AI定义硬件,而非先制造完美硬件再适配AI模型 [53] - 公司坚持软硬一体同步发展,已实现两款全自研轮式底盘人形机器人及高自由度灵巧手,并开始市场销售 [54] - 实现了跨本体泛化,例如从夹爪模型迁移到20个自由度(15个主动自由度)的灵巧手,仅需非常少量样本,表明模型已学会基础物理规律和动作模式 [36] - 在高度复杂任务上,实现了超过人类遥操作训练速度的1倍速实时控制,并维持高准确率 [33][34] - 公司自研的WALL-OSS是领先的开源物理世界基础模型,具备VLA模型控制机器人、良好泛化、智能跟随及构建长序列思维链解决复杂问题的能力 [41][44] 具身智能的宏观重要性 - 普遍观点低估了具身智能的发展和影响,认为语言、数学、代码等领域比具身智能有本质重要性,但此观点存在隐藏假设 [54] - 创造超越人类的AGI/ASI所需的一切资源(算力、芯片、电力、能源、数据)都来自物理世界 [54] - 当前物理世界未出现指数级增长的核心卡点是“人手的劳动”,几乎所有商品和服务都无法脱离这一步 [57][58] - 若具身智能实现,万事万物可遵循类似芯片摩尔定律的发展规律,从而带来更多资源以创造更聪明的ASI,走向真正的通用智能未来 [59]