文章核心观点 - 具身智能行业在2025年末仍处于技术探索早期,尚未形成统一的技术发展共识,但这种“无共识”状态被视作具有积极意义,它打破了单一技术路线的垄断,为不同背景的团队提供了平等的试错空间,并为技术创新预留了弹性空间 [1][3] - 行业认为,真正的具身智能并非源于一条预设的完美路径,而是通过模型、数据和架构领域的持续试错、冲突与调和“雕刻”而成,当前的不完美状态恰恰是领域生命力的体现 [1][14] 技术路线与模型发展 - 世界模型价值与局限:世界模型的核心价值在于“预测”物理交互,对机器人底层控制至关重要,但其短板突出,难以成为万能方案,主要问题包括:训练数据多依赖人类行为视频,与机器人身体结构差异大,帮助有限;在真实复杂场景(如做饭、装配)中预测精度仍不足 [4][5] - 专属模型需求:行业共识认为需要打造平行于大语言模型的具身专属模型,例如以“动作”为核心的“Large Action Model”,或能同时控制动作和预测物理规律的“物理世界基础模型”,因为物理世界的精细交互(如摩擦、力反馈)无法用语言准确描述 [6] - 架构革新探索:Transformer架构在具身智能领域的适用性受到质疑,因其以语言为核心的处理逻辑与物理世界“视觉-动作”直接交互的操作逻辑相悖,硅谷头部团队已在探索“Vision First”或“Vision Action First”的新架构,以减少语言中介的损耗 [7][8] 数据策略与需求演变 - 数据来源的适配选择:行业没有统一的数据使用答案,普遍采取多源融合、按需选择的策略:1) 真机数据:保真度高,是精细操作场景的首选和高质量数据的来源,被视为构建数据飞轮的起点 [9];2) 仿真数据:成本低、可规模化,是底层控制训练和生成极端场景数据的主力 [9];3) 视频数据:包含时空、因果等多维度信息,能大规模获取,是训练基座模型、认识世界的重要补充,但缺乏力反馈、触觉等精细信息 [10] - 数据需求全方位升级:行业对数据的需求在“数量”、“质量”和“种类”上均提出更高要求:1) 数量:期待“互联网级别”或“具身智能互联网”级别的海量数据,当前业内构建的27万小时真机数据集仍远未达到海量标准,不足以引发质变 [11];2) 质量:高质量数据比海量低质数据更有价值,在具身场景中,数据质量比总量更能拉开量级差距,金字塔顶尖的真机数据虽少但至关重要 [13];3) 种类:需丰富多模态数据(如触觉、力反馈),当前能力多承袭基座模型的视觉与语言,真正物理交互的模态数据稀缺,未来数据采集需全面记录机器人动作、环境变化、交互反馈及人类需求 [13][14] 产业发展态势 - “无共识”的产业利好:共识缺失对产业有三重利好:1) 打破单一技术路线垄断,避免路径依赖,让不同技术理念和学科背景的团队获得平等试错空间 [3];2) 降低准入壁垒,为中小企业、初创团队及跨界玩家提供弯道超车的机会 [3];3) 在技术基础快速迭代的早期,避免过早形成共识固化技术路径,为向更高维度突破预留“弹性空间” [3] - 发展路径展望:短期突破依赖仿真模拟与合成数据以加速探索,长期发展则依赖于现实世界中“机器人人口”规模的持续快速扩张,通过能力提升与数据积累相互推动,才能催生真正强大的具身大模型 [8][11]
具身智能无共识,就是最好的共识
36氪·2025-11-26 07:32