Workflow
从蹒跚学步到模特步,人形机器人大模型做了什么
特斯拉特斯拉(US:TSLA) 新财富·2025-11-18 16:06

文章核心观点 - 人形机器人行业近期新机发布活跃,产品侧重点各异,运动能力显著提升,背后驱动力是人形机器人大模型的技术进步 [2] - 人形机器人大模型技术路径从LLM(大语言模型)演进至VLM(视觉语言模型),并进一步发展为VLA(视觉-语言-动作模型),核心突破在于将所有信息统一到可计算的Token空间 [4][5][6] - 行业主要玩家如谷歌、特斯拉、英伟达等在VLA模型及其应用上进行了不同路径的探索和布局 [9][12][18] 人形机器人行业近期动态 - 尽管特斯拉Optimus Gen3推迟至2026年发布,但行业新机发布节奏保持,近期发布了Figure03、1X Neo、小鹏IRON、优必选Walker S2、宇树H2等多款机型 [2] - 不同产品侧重方向差异明显:Figure03和1X Neo专注家庭场景,优必选Walker S2针对工业场景量产,小鹏IRON模特步以假乱真引发热议,宇树H2专注舞蹈等复杂动作 [2] - 人形机器人运动能力相比前两年提升非常明显,从蹒跚学步进化到动作自然优雅 [2] 人形机器人大模型技术演进 - 大模型发展脉络从LLM到VLM再到VLA,核心突破是将不同类型信息映射到统一的"符号空间",使机器人所有输入输出在连续但离散化可计算的Token空间中表达 [4][6] - Token化带来三大关键好处:统一建模空间(视觉、语言、运动可共享Transformer框架)、通用训练范式(可自监督预测下一个动作token)、迁移与泛化能力增强(跨任务场景迁移技能) [7][8] 谷歌RT-2模型 - VLA模型由Google DeepMind于2023年7月首次提出,发表于论文《RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》 [10] - RT-2相较于前代RT-1最大变化是将机器人控制也由大模型完成,动作表示为token,与视觉-语言信息一起训练,实现AI闭环控制 [10] - 在新场景性能上,RT-2成功率从RT-1的32%提升至62%,提升原因不仅包括加入Action,LLM推理能力也有较大突破 [10] 特斯拉技术路径 - 特斯拉Optimus应用其自动驾驶FSD模型,项目leader在ICCV顶会提到FSD模型可迁移至Optimus [12] - 从FSD V12开始全面转向端到端,使用单一大型神经网络,像素及传感器数据作为输入,直接输出执行动作 [13] - 人形机器人输入输出数据复杂度远高于驾驶(涉及全身多个执行器控制),但特斯拉解决方案仍是创造大量数据,有超过100人团队进行数据采集工作 [15] - 特斯拉端到端方案并非完全黑箱,从"V"到"A"可输出中间结果(即VLA中的中间token"L") [15] 英伟达生态布局 - 英伟达发布全球首个开源通用人形机器人基础模型GR00T N1,具备双系统架构(快速与缓慢思考),一个系统推理环境指令并规划行动,另一个系统将计划转化为精确连续动作 [19] - 英伟达布局涵盖硬件到软件生态,包括机器人主控芯片Jetson Thor、仿真训练平台Isaac Lab和工具GR00T模型 [22] - 黄仁勋提出机器人公司需构建三台计算机协同解决方案:DGX(AI深度训练)、AGX(终端部署)、Omniverse with Cosmos(实时3D协作+数字孪生平台) [22] - Omniverse允许创建虚拟场景,Cosmos可生成符合物理规律的视频数据用于模型训练和评估,弥补真实数据采集效率低的问题 [22] - 许多初创公司如1X、Agility、Apptronik等使用英伟达大模型+Cosmos完整解决方案 [24] 行业不同观点 - 智元公司发布Genie Operator-1提出ViLLA架构,在VLA基础上加入"潜在动作"关键环节,并配套百万条真机轨迹数据集与"0代码动作创作平台",已开源GO-1并释放真机数据集 [26] - 王兴兴在世界机器人大会上对VLA路线持怀疑态度,认为这是"相对傻瓜式的架构",核心症结在于具身领域现存数据量严重不足 [26] - 王兴兴批评行业过度关注基础数据堆砌(真机数据、仿真数据、数采厂),认为焦点应放在模型架构本身,当前模型"不够好、也不够统一"是制约技术突破的关键 [26] - VLA将机器人动作纳入AI规划,但想要在复杂物理世界中游刃有余,机器人大脑还需更大进化 [27]