Workflow
Generalist AI
icon
搜索文档
Physical Intelligence:机器人需要一个“个人电脑时刻”
海外独角兽· 2026-04-03 20:05
行业技术进展与公司核心观点 - Generalist AI发布的GEN-1模型在特定任务上将成功率从平均64%提升至99%,速度约为之前SOTA的3倍,且每项任务仅需约1小时机器人数据,证明了机器人无需海量专用数据即可达到生产级可靠性,并验证了机器人领域的Scaling Law [2] - Physical Intelligence(π)公司由前Google DeepMind研究员与UC Berkeley学者联合创立,已完成超10亿美元融资,据报正洽谈新一轮约10亿美元融资,估值有望超过110亿美元 [2] - 公司的核心赌注是开发一个能控制几乎任何物理系统完成任何任务的通用机器人基础模型,类比于能完成任何语言任务的语言模型 [3] 通用模型与专用模型的比较 - 公司的核心假设是,以完全通用的方式构建机器人基础模型,长期来看比针对狭窄应用场景做专门优化更容易,这与语言模型的发展历史经验一致 [5] - 通用模型可以利用远比单一任务更广泛的数据源,尤其是弱标注数据,从而学习关于世界的通用知识,并在此基础上高效构建各种应用 [5] - 在机器人领域,通过汇聚来自不同任务、应用和机器人的数据,可以训练出真正理解物理交互的通用模型,这类似于人类依靠物理理解快速掌握新技能的方式 [6] 泛化能力与演示意义 - 泛化的重点不在于完成炫酷的特定任务,而在于机器人能在任何场景下完成普通人能做的普通任务 [4][6] - 公司去年四月发布的清理厨房演示,其关键意义在于机器人被放入一个从未见过的家庭环境中执行任务,且未在该场景下进行过专门训练,这体现了技术的前沿进展 [7] 通用基础模型的潜在影响 - 一个通用的具身基础模型若实现,将释放人们在构建机器人时的想象力,类似于个人电脑让无数人能够拼凑出各种应用,可能引发机器人应用层面的寒武纪大爆发 [10] - 机器人应被视为一套可组合的工具平台,人们可以在其上构建形态各异的应用程序,关键在于针对具体场景找到最合适的方案,而非统一形态 [10][11] - 拥有一个可靠的底层基础模型平台,将大幅降低尝试各种机器人想法的门槛,人们只需进行微调或适配即可 [10] 机器人形态与通用智能 - 人形机器人只是未来众多机器人形态之一,不同类型的机器人面临的智能挑战非常相似,不应在特定身体形态下解决智能问题 [11] - 一个通用的机器人基础模型可以适配到从推土机、人形机器人到桌面机械臂的整个谱系,物理交互的基本原理在所有系统中是通用的 [12] - 真正的通用物理智能能实现仅靠人形机器人智能做不到的事,例如制造非常庞大或微小(如进入人体内部)的机器人,以及在医疗手术等场景中突破对人类实时操控的依赖 [12] 物理智能的本质与工具使用 - “物理智能”被类比为人类学会骑自行车瞬间的领悟感 [13] - 神经科学研究表明,当猴子使用工具时,大脑中感知手部位置的神经元参照点会转移到工具末端,说明“工具是身体的延伸”是一种真实的生理机制 [15] - 因此,优秀的物理智能基础模型应该是“形态不可知”的,能够适应并操控它所接管的任何“身体”和工具,这本质上是同一个能力在不同载体上的表现 [15] 研究历史与技术演进 - 用端到端方式控制机器人是古老想法,最早的端到端学习自动驾驶系统ALVINN诞生于1980年代 [16] - 机器人学习的传统困难在于需要系统同时满足处理目标场景、训练成本可控、用常识处理长尾场景以及快速稳定可靠等多重条件 [19] - 过去几年最大的变化是系统需要处理不寻常场景,这依赖于从其他来源获取知识并应用到新情境,而多模态大语言模型为获取常识提供了可行路径 [19][20] - 多模态大语言模型被引入并适配到机器人控制中,从而为系统注入常识,是近期的一个重要突破 [21] 公司技术路径:VLA模型与结合生成式AI与强化学习 - 公司搭建了名为Vision-Language-Action的基础架构,这是一个经过改造用于机器人控制的大语言模型,训练分为三个阶段:文本数据训练语言能力、互联网图像数据适配获得视觉理解、多样化机器人数据适配学会将感知转化为动作 [24] - 公司研究沿两条线展开:一是让模型用常识处理不寻常场景,核心方法是利用“思维链”进行任务推理,以激活预训练中获得的世界知识 [26][27];二是让模型通过强化学习持续改进自身表现,例如在制作意式浓缩咖啡的演示中通过反复练习优化操作 [27] - 公司希望攻克的最大挑战是将生成式AI积累的海量知识与能超越人类水平的深度强化学习结合起来 [23][24] 数据策略与传感器使用 - 公司认为可以用比想象中更少的传感器完成任务,其演示机器人平台只使用了三个摄像头(两个在手腕,一个在底座),未配备触觉或力传感器 [28] - 手腕摄像头可被视为变相的触觉传感器,因为通过图像可以观察到接触物体时产生的局部形变 [28] - 对于训练通用具身AI所需的数据量尚无定论,但关键不在于精确估算,而在于让系统尽快具备实用能力并投入真实世界,在运行中持续收集数据并改进,类似于特斯拉面临数据过多而非不足的情况 [28][29] 技术能力现状:进展与挑战 - 公司在灵巧操作方面取得的进展远超预期,系统能做出非常精巧灵活的动作 [30] - 模型展现出跨具身形态的泛化能力,同一模型可在自由度完全不同的其他机器人上工作,仅需收集一些数据并微调,而模型架构本身无需修改 [30] - 当前真正的难点在于那些数据难以收集、需要更多常识、跨层级推理以及融合不同来源知识的任务 [32] - 瓶颈已从物理层面完成动作,转向正确理解场景并选择合适行动,而这一层能力可以通过语言形式的监督来有效改进 [33][34] 落地挑战与长尾问题 - 机器人进入家庭场景的最大技术风险在于需要应对的情况范围过于广泛,系统必须在几乎所有情况下都给出合理响应 [35] - 最大的落地障碍可能不完全在于核心技术,而在于技术与人交互存在的“长尾”问题,即社会是否愿意接受一个尚不完美的机器人及其带来的风险,这在不同场景适用性不同 [34] 方法论核心与通用性 - 公司方法论的核心是让系统具备“通用性”,尤其是在“如何被持续改进”这件事上的通用性,基于学习的系统比手工设计控制器更通用,而能从自身经验中自主学习的系统则通用性更强 [36] - 大多数技术选择都围绕实现这种逐级增强的通用性,尤其是改进机制本身的通用性这一目标展开 [36] 数据来源路线分歧与演示策略 - 机器人领域一个关键且未充分解决的问题是不同数据来源之间的路线分歧,特别是真实世界数据与仿真数据之间的取舍 [36] - 人形机器人完成复杂动作的视频往往依赖仿真技术路线,而机器人操作领域表现较好的方法则依赖大量真实世界数据并结合大型基础模型,这种差异值得思考 [37] - 公司的演示策略是在确保有用的前提下尽可能做到“酷”,选择最具挑战性、能推动通用模型发展的任务进行压力测试,而这些任务在视觉上往往也最“酷” [37][38] 能力测试与超越人类的潜力 - 公司进行了一次非正式的“机器人奥运会”测试,尝试完成一系列对人类简单但对机器人困难的任务,几乎全部完成,体现了通用系统在不做大量专门工程下接入新任务的价值 [40][42] - 机器可以在某些维度超越人类物理能力,例如在插线缆等任务中,机器人可以通过消除人类因信息处理带宽瓶颈导致的停顿,以更快、更高效的方式完成任务 [42] - 通用AI工具可以降低机器人形态创新的门槛,允许人们在车库组装新机器人并加载基础模型开始任务,从而释放创造力,类似于个人电脑的发展 [43][44] 社区争议与发展动力 - 当前机器人社区最大的争议在于是否应该采用端到端学习,但从长期看,如果目标是实现通用性和自我改进,依赖数据驱动的学习将是不可避免的方向 [45][46] - 推动领域进展的不仅是少数关键人物和成功案例,大量研究者的探索、试错甚至失败尝试都在引导领域走向正确方向 [50] - 硬件成本显著下降推动了行业发展,例如十年前价格约40万美元的PR2机器人,现在平台使用的机械臂成本可能只有当年的十分之一左右 [58] 未来展望与不确定性 - 公司认为最大的变量是时间线,技术存在“冷启动”问题,需要先达到关键的实用门槛才能进入加速发展阶段,但此前的触发时点难以预测 [60] - 当前核心攻关方向之一是更好地理解中间层推理,即如何构建和组织常识知识的内部表征,这可能与大语言模型以语言为中心的方式不同 [60][61] - 在机器人研究者中,公司创始人处于乐观一端;但在机器人创业者中,则处于悲观一端,因为机器人领域历史悠久但成功案例不多,仍然有大量问题尚未解决 [61]