Workflow
Robot Foundation Model
icon
搜索文档
《机器人年鉴》第 2 卷:如何训练你的机器人;地缘政治;稀土;萨根的预言-The Robot Almanac-Vol. 2 How to Train Your Robot; Geopolitics; Rare Earths; Sagan’s Prophecy
2025-12-15 10:51
行业与公司 * 本纪要为摩根士丹利全球具身人工智能团队发布的《机器人年鉴》第二卷,主题为“如何训练你的机器人、地缘政治、稀土、萨根的预言”[1] * 报告涉及行业为具身人工智能与机器人行业,涵盖机器人基础模型、世界模型、训练方法、边缘计算、地缘政治竞争及稀土供应链等多个细分领域[21][23] * 提及的公司众多,包括但不限于: * **科技巨头/上市公司**:NVIDIA(覆盖分析师:Joseph Moore)[76]、Google/Alphabet(覆盖分析师:Brian Nowak)[89][224]、Meta(覆盖分析师:Brian Nowak)[214]、Apple(覆盖分析师:Erik Woodring)[214]、Tesla[143]、Unity(覆盖分析师:Matt Cost)[169]、MP Materials(覆盖分析师:Carlos De Alba)[427]、Lynas(LYC.AX,覆盖分析师:Rahul Anand)[428]、Iluka Resources(ILU.AX,覆盖分析师:Rahul Anand)[429]、BYD(覆盖分析师:Tim Hsiao)[339] * **机器人/具身AI初创公司(私人公司)**:Skild AI[284]、Physical Intelligence[279]、1X Technologies[60]、Figure AI[59]、Covariant[62]、Field AI[63]、Agibot[61]、Apptronik[251] * **其他**:Epic Games(私人)[169]、Brookfield(覆盖分析师:Mike Cyprys)[199]、DJI(私人)[339] 核心观点与论据 **1 机器人技术范式转变:从预AI到后AI** * **预AI机器人**:局限于工厂,执行高度可预测、重复的任务,复杂度有限,需要有限的灵巧性,与人类交互有限或无交互[30] * **后AI机器人**:能够执行多样化任务、适应不同环境,可与人类交互,并具备持续学习能力[39] * **关键转变**:机器人正“逃离工厂”,进入家庭、农场、城市、空中、太空、军事和海洋等物理世界[45] **2 机器人基础模型(RFM)的核心概念与架构** * **定义**:RFM通过大规模机器人运动数据集进行预训练(实现广泛泛化),再针对特定任务(如抓取物体)进行后训练[53] * **与LLM/VLM的区别**: * **LLM/VLM**:基于互联网上易于抓取的文本/图像数据进行训练,输出文本、图像、代码等[96] * **机器人模型**:需要大量现实世界数据收集和模拟,输出是动作[100] * **类比人脑**:LLM主要对应大脑的创造性、解决问题、语言等功能区域(额叶、颞叶等),而物理AI则对应处理精细运动技能、平衡、协调的小脑和运动皮层,后者被描述为“最难的AI领域”[105][107] * **主流架构**:大多数基础模型基于视觉-语言-动作架构,通过神经网络处理视觉和语言输入,输出机器人动作[66][67] * **双系统方法**:开发者(如NVIDIA、Physical Intelligence、Figure)采用类似人脑的“快慢思考”双系统方法,系统1负责自动/本能反应,系统2负责通过推理确定任务中间步骤[70][72] **3 机器人训练方法、数据与挑战** * **训练方法**:主要有三种——遥操作(人类直接控制)、模拟(数字孪生+强化学习)、视频学习(基于人类或机器人视频)[140][143] * **方法对比**: * **遥操作**:能提供视觉和物理数据,相对简单,但耗时、不可扩展,数据在不同机器人形态间用处有限[147] * **模拟**:可无限扩展至多样场景,提供视觉和物理数据,但计算密集,存在“模拟到现实”的差距[152] * **视频**:基于真实世界,可通过摄像头捕获大量人类场景,理论上可从互联网抓取,但仅有视觉数据,可能需要更大样本量[154] * **特斯拉的实践**:尝试了所有三种方法,目前专注于模拟和视频学习[155] * **数据挑战与价值**: * **莫拉维克悖论**:对人类来说容易的技能(如抓取、在拥挤空间导航),对AI来说很难;反之,对人类难的技能(如多变量微积分),对AI可能很容易[127][130][132] * **物理世界的复杂性**:训练机器人执行简单任务(如从冰箱取瓶子)需考虑手指精确定位、身体平衡、肩膀角度、施加的力度、物体重心变化、环境导航、湿度、材料属性等无数细节,凸显物理AI的难度[116][120] * **数据的时效性**:最具价值的5分钟数据是“刚刚过去的5分钟”,仅次于“接下来的5分钟”,拥有最佳实时/涌现数据的公司具有重大优势[125][126] * **模拟与游戏引擎的作用**: * 模拟对机器人训练至关重要,因其更安全、可扩展且能不断改进[159] * 视频游戏本质上是模拟,游戏引擎公司(如Epic Games的Unreal Engine、Unity)已涉足该领域[166][169] * NVIDIA的显卡游戏历史为其机器人未来(如Omniverse模拟平台)奠定了基础[170][174] **4 边缘计算与分布式推理** * **NVIDIA的三计算架构**:模拟(合成数据生成)、数据中心(训练)、运行时计算机(如Jetson系列,在边缘进行实时推理)[176] * **边缘计算需求与潜力**: * **Jetson Thor**:最新一代边缘实时推理计算机,每套约3500美元,每台机器人至少配备一个,用户包括1X、Agility、Amazon、Boston Dynamics、Figure等[178][180] * **分布式推理云**:随着机器人数量增加,其搭载的推理算力可能形成分布式推理云,挑战集中式数据中心模式,优势包括能源效率、弹性/容错/安全性、灵活性/效率和低延迟[185][188] * **特斯拉的设想**:利用特斯拉AI5芯片连接其“机器人”群,形成分布式推理云,据摩根士丹利测算,假设1亿台机器人,每台2,500 TFLOPS,平均50%可用利用率,可提供约125,000 ExaFLOPS算力,相当于约700万个B200 GPU的算力,且功耗和冷却已由设备承担[193][195] * **边缘算力需求估算**: * **单机器人算力**:2024年,人形机器人约等效于2个NVIDIA Jetson Orin(275 TFLOPS),自动驾驶汽车和电动垂直起降飞行器约等效于2个NVIDIA DRIVE Thor SoC(1,000 TFLOPS)[234] * **总需求**:机器人销量增长将驱动边缘AI计算需求呈指数级增长[228] **5 地缘政治:中美在具身AI领域的竞争** * **竞争态势**:中美之间正在进行“AI霸权竞赛”[287] * **美国现状**:目前在AI模型(根据Scale AI的MASK基准测试)等方面可能“领先”[290] * **中国的战略与优势**: * **国家优先**:已将机器人列为国家优先事项[301] * **制造规模**:2024年工业机器人安装量占全球的54%,超过其他所有国家总和[302];正在将现有制造业产能转化为生产AI机器人[297] * **垂直整合**:在电动汽车、电池、无人机、摄像头设备等领域通过垂直整合和本土化实现主导地位,例如比亚迪75%的零部件自产,大疆的飞控、摄像头、电机、电池、云台、软件均自产[338] * **STEM教育**:在STEM教育方面超过美国[309] * **相互依赖与谈判**: * **美国需要中国**:中国主导全球电动汽车电池制造和稀土磁体生产[341][344] * **中国需要美国**:美国拥有巨大的私人财富和市场[348][349] * 双方已表现出在贸易及相关问题上谈判的意愿,议题可能包括TikTok美国业务出售、稀土供应、尖端芯片等[350][351] * **竞争驱动创新**:历史表明,从战国时期到冷战,国家间的竞争是创新的关键驱动力[321][325] * **“美国发明,中国规模化”模式**:报告以太阳能电池为例,美国于1954年发明,但到2023年近100%的太阳能生产依赖中国,2024年中国新增太阳能装机容量超过美国总装机容量的1.5倍[328][330][334] * **中期展望**:中美之间将是“竞争性对抗”[360] * **潜在合作案例**:传闻苹果与比亚迪在越南合作制造机器人[356][358] **6 稀土:关键瓶颈与供应链风险** * **重要性**:稀土元素(特别是钕、镝、铽等)对于制造用于机器人关节、电动汽车电机等的永磁体至关重要[367][373] * **供应高度集中**:中国主导稀土开采和精炼,2024年分别占约90%和近90%[400][404] * **供应链脆弱性**:历史上(如2010年对日本)曾出现供应中断,导致价格飙升[408][409] * **需求激增**: * **机器人需求**:不同机器人形态需要不同数量的钕铁硼磁体(公斤/台)[390] * **巨大增量**:仅人形机器人一项,到2050年就可能使磁体需求翻倍[393] * **总量预估**:到2050年,预计售出14亿台机器人,对应170万吨磁体需求(假设磁体化学性质不变)[396][398] * **挑战与应对**: * **无快速解决方案**:建立新的采矿和精炼产能需要时间,全球新矿启动通常需要超过20年[414][416] * **中国持续主导**:预计到2050年中国仍将保持主导份额[419] * **投资与替代努力**: * **美国政府介入**:2025年7月,美国国防部收购MP Materials 15%的股份,以扩大其磁体产能,这是自2008年金融危机救助以来罕见的政府直接持股[432][433] * **摩根士丹利看好的非中国稀土股**:MP Materials、Lynas、Iluka Resources[425] * **初创企业探索**:包括无稀土磁体、稀土回收、从采矿废料中提取稀土等方向的私人公司[436] **7 数据收集与未来展望** * **视觉数据收集**:报告预测,到2030年,人们将通过众多摄像头持续收集数据以训练机器人,而不仅是口袋里的一个摄像头[203][209] * **大型科技公司的数据探针**:Meta智能眼镜等设备可能成为重要的现实世界数据来源,据估计两年内使用量超过2000万副,约相当于特斯拉上路车辆数量的两倍[219] * **行业投入**:全球对物理AI模型与开发的初创企业风险投资规模巨大(截至2025年12月10日)[240] * **萨根的预言**:引用天文学家卡尔·萨根1995年的预言,警告美国制造业流失可能带来不利的地缘政治和社会后果[442][448] * **机遇**:AI与实体经济的交汇为证伪萨根的预言提供了机会,可能重塑全球制造业格局[455] * **摩根士丹利的战略承诺**:公司将致力于阐述具身AI的故事,帮助客户识别可能超越当今全球GDP规模的行业变革者和新市场创造者[458] 其他重要内容 * **报告性质与免责声明**:内容基于未经审计的信息,不构成投资建议,特别是涉及私人公司的部分仅供信息参考,投资者应自行尽职调查[1][463] * **术语简化尝试**:报告承认AI和机器人术语混乱,并尝试简化一系列术语,如世界模型、模仿学习、LLM、预训练、数字孪生等[47] * **列举的机器人基础模型与世界模型**:报告列出了多家公司/机构开发的基础模型和世界模型示例[54][63][80][84] * **全球机器人AI赋能者概览**:报告以图表形式展示了该生态系统的关键参与者[244] * **谷歌的数据规模**:提及谷歌处理的令牌数量从2024年5月的9.7万亿个攀升至2025年4月的超过万亿个,并在2025年6月达到980+万亿个[224]