Workflow
Google DeepMind Genie 3
icon
搜索文档
《机器人年鉴》第 2 卷:如何训练你的机器人;地缘政治;稀土;萨根的预言-The Robot Almanac-Vol. 2 How to Train Your Robot; Geopolitics; Rare Earths; Sagan’s Prophecy
2025-12-15 10:51
行业与公司 * 本纪要为摩根士丹利全球具身人工智能团队发布的《机器人年鉴》第二卷,主题为“如何训练你的机器人、地缘政治、稀土、萨根的预言”[1] * 报告涉及行业为具身人工智能与机器人行业,涵盖机器人基础模型、世界模型、训练方法、边缘计算、地缘政治竞争及稀土供应链等多个细分领域[21][23] * 提及的公司众多,包括但不限于: * **科技巨头/上市公司**:NVIDIA(覆盖分析师:Joseph Moore)[76]、Google/Alphabet(覆盖分析师:Brian Nowak)[89][224]、Meta(覆盖分析师:Brian Nowak)[214]、Apple(覆盖分析师:Erik Woodring)[214]、Tesla[143]、Unity(覆盖分析师:Matt Cost)[169]、MP Materials(覆盖分析师:Carlos De Alba)[427]、Lynas(LYC.AX,覆盖分析师:Rahul Anand)[428]、Iluka Resources(ILU.AX,覆盖分析师:Rahul Anand)[429]、BYD(覆盖分析师:Tim Hsiao)[339] * **机器人/具身AI初创公司(私人公司)**:Skild AI[284]、Physical Intelligence[279]、1X Technologies[60]、Figure AI[59]、Covariant[62]、Field AI[63]、Agibot[61]、Apptronik[251] * **其他**:Epic Games(私人)[169]、Brookfield(覆盖分析师:Mike Cyprys)[199]、DJI(私人)[339] 核心观点与论据 **1 机器人技术范式转变:从预AI到后AI** * **预AI机器人**:局限于工厂,执行高度可预测、重复的任务,复杂度有限,需要有限的灵巧性,与人类交互有限或无交互[30] * **后AI机器人**:能够执行多样化任务、适应不同环境,可与人类交互,并具备持续学习能力[39] * **关键转变**:机器人正“逃离工厂”,进入家庭、农场、城市、空中、太空、军事和海洋等物理世界[45] **2 机器人基础模型(RFM)的核心概念与架构** * **定义**:RFM通过大规模机器人运动数据集进行预训练(实现广泛泛化),再针对特定任务(如抓取物体)进行后训练[53] * **与LLM/VLM的区别**: * **LLM/VLM**:基于互联网上易于抓取的文本/图像数据进行训练,输出文本、图像、代码等[96] * **机器人模型**:需要大量现实世界数据收集和模拟,输出是动作[100] * **类比人脑**:LLM主要对应大脑的创造性、解决问题、语言等功能区域(额叶、颞叶等),而物理AI则对应处理精细运动技能、平衡、协调的小脑和运动皮层,后者被描述为“最难的AI领域”[105][107] * **主流架构**:大多数基础模型基于视觉-语言-动作架构,通过神经网络处理视觉和语言输入,输出机器人动作[66][67] * **双系统方法**:开发者(如NVIDIA、Physical Intelligence、Figure)采用类似人脑的“快慢思考”双系统方法,系统1负责自动/本能反应,系统2负责通过推理确定任务中间步骤[70][72] **3 机器人训练方法、数据与挑战** * **训练方法**:主要有三种——遥操作(人类直接控制)、模拟(数字孪生+强化学习)、视频学习(基于人类或机器人视频)[140][143] * **方法对比**: * **遥操作**:能提供视觉和物理数据,相对简单,但耗时、不可扩展,数据在不同机器人形态间用处有限[147] * **模拟**:可无限扩展至多样场景,提供视觉和物理数据,但计算密集,存在“模拟到现实”的差距[152] * **视频**:基于真实世界,可通过摄像头捕获大量人类场景,理论上可从互联网抓取,但仅有视觉数据,可能需要更大样本量[154] * **特斯拉的实践**:尝试了所有三种方法,目前专注于模拟和视频学习[155] * **数据挑战与价值**: * **莫拉维克悖论**:对人类来说容易的技能(如抓取、在拥挤空间导航),对AI来说很难;反之,对人类难的技能(如多变量微积分),对AI可能很容易[127][130][132] * **物理世界的复杂性**:训练机器人执行简单任务(如从冰箱取瓶子)需考虑手指精确定位、身体平衡、肩膀角度、施加的力度、物体重心变化、环境导航、湿度、材料属性等无数细节,凸显物理AI的难度[116][120] * **数据的时效性**:最具价值的5分钟数据是“刚刚过去的5分钟”,仅次于“接下来的5分钟”,拥有最佳实时/涌现数据的公司具有重大优势[125][126] * **模拟与游戏引擎的作用**: * 模拟对机器人训练至关重要,因其更安全、可扩展且能不断改进[159] * 视频游戏本质上是模拟,游戏引擎公司(如Epic Games的Unreal Engine、Unity)已涉足该领域[166][169] * NVIDIA的显卡游戏历史为其机器人未来(如Omniverse模拟平台)奠定了基础[170][174] **4 边缘计算与分布式推理** * **NVIDIA的三计算架构**:模拟(合成数据生成)、数据中心(训练)、运行时计算机(如Jetson系列,在边缘进行实时推理)[176] * **边缘计算需求与潜力**: * **Jetson Thor**:最新一代边缘实时推理计算机,每套约3500美元,每台机器人至少配备一个,用户包括1X、Agility、Amazon、Boston Dynamics、Figure等[178][180] * **分布式推理云**:随着机器人数量增加,其搭载的推理算力可能形成分布式推理云,挑战集中式数据中心模式,优势包括能源效率、弹性/容错/安全性、灵活性/效率和低延迟[185][188] * **特斯拉的设想**:利用特斯拉AI5芯片连接其“机器人”群,形成分布式推理云,据摩根士丹利测算,假设1亿台机器人,每台2,500 TFLOPS,平均50%可用利用率,可提供约125,000 ExaFLOPS算力,相当于约700万个B200 GPU的算力,且功耗和冷却已由设备承担[193][195] * **边缘算力需求估算**: * **单机器人算力**:2024年,人形机器人约等效于2个NVIDIA Jetson Orin(275 TFLOPS),自动驾驶汽车和电动垂直起降飞行器约等效于2个NVIDIA DRIVE Thor SoC(1,000 TFLOPS)[234] * **总需求**:机器人销量增长将驱动边缘AI计算需求呈指数级增长[228] **5 地缘政治:中美在具身AI领域的竞争** * **竞争态势**:中美之间正在进行“AI霸权竞赛”[287] * **美国现状**:目前在AI模型(根据Scale AI的MASK基准测试)等方面可能“领先”[290] * **中国的战略与优势**: * **国家优先**:已将机器人列为国家优先事项[301] * **制造规模**:2024年工业机器人安装量占全球的54%,超过其他所有国家总和[302];正在将现有制造业产能转化为生产AI机器人[297] * **垂直整合**:在电动汽车、电池、无人机、摄像头设备等领域通过垂直整合和本土化实现主导地位,例如比亚迪75%的零部件自产,大疆的飞控、摄像头、电机、电池、云台、软件均自产[338] * **STEM教育**:在STEM教育方面超过美国[309] * **相互依赖与谈判**: * **美国需要中国**:中国主导全球电动汽车电池制造和稀土磁体生产[341][344] * **中国需要美国**:美国拥有巨大的私人财富和市场[348][349] * 双方已表现出在贸易及相关问题上谈判的意愿,议题可能包括TikTok美国业务出售、稀土供应、尖端芯片等[350][351] * **竞争驱动创新**:历史表明,从战国时期到冷战,国家间的竞争是创新的关键驱动力[321][325] * **“美国发明,中国规模化”模式**:报告以太阳能电池为例,美国于1954年发明,但到2023年近100%的太阳能生产依赖中国,2024年中国新增太阳能装机容量超过美国总装机容量的1.5倍[328][330][334] * **中期展望**:中美之间将是“竞争性对抗”[360] * **潜在合作案例**:传闻苹果与比亚迪在越南合作制造机器人[356][358] **6 稀土:关键瓶颈与供应链风险** * **重要性**:稀土元素(特别是钕、镝、铽等)对于制造用于机器人关节、电动汽车电机等的永磁体至关重要[367][373] * **供应高度集中**:中国主导稀土开采和精炼,2024年分别占约90%和近90%[400][404] * **供应链脆弱性**:历史上(如2010年对日本)曾出现供应中断,导致价格飙升[408][409] * **需求激增**: * **机器人需求**:不同机器人形态需要不同数量的钕铁硼磁体(公斤/台)[390] * **巨大增量**:仅人形机器人一项,到2050年就可能使磁体需求翻倍[393] * **总量预估**:到2050年,预计售出14亿台机器人,对应170万吨磁体需求(假设磁体化学性质不变)[396][398] * **挑战与应对**: * **无快速解决方案**:建立新的采矿和精炼产能需要时间,全球新矿启动通常需要超过20年[414][416] * **中国持续主导**:预计到2050年中国仍将保持主导份额[419] * **投资与替代努力**: * **美国政府介入**:2025年7月,美国国防部收购MP Materials 15%的股份,以扩大其磁体产能,这是自2008年金融危机救助以来罕见的政府直接持股[432][433] * **摩根士丹利看好的非中国稀土股**:MP Materials、Lynas、Iluka Resources[425] * **初创企业探索**:包括无稀土磁体、稀土回收、从采矿废料中提取稀土等方向的私人公司[436] **7 数据收集与未来展望** * **视觉数据收集**:报告预测,到2030年,人们将通过众多摄像头持续收集数据以训练机器人,而不仅是口袋里的一个摄像头[203][209] * **大型科技公司的数据探针**:Meta智能眼镜等设备可能成为重要的现实世界数据来源,据估计两年内使用量超过2000万副,约相当于特斯拉上路车辆数量的两倍[219] * **行业投入**:全球对物理AI模型与开发的初创企业风险投资规模巨大(截至2025年12月10日)[240] * **萨根的预言**:引用天文学家卡尔·萨根1995年的预言,警告美国制造业流失可能带来不利的地缘政治和社会后果[442][448] * **机遇**:AI与实体经济的交汇为证伪萨根的预言提供了机会,可能重塑全球制造业格局[455] * **摩根士丹利的战略承诺**:公司将致力于阐述具身AI的故事,帮助客户识别可能超越当今全球GDP规模的行业变革者和新市场创造者[458] 其他重要内容 * **报告性质与免责声明**:内容基于未经审计的信息,不构成投资建议,特别是涉及私人公司的部分仅供信息参考,投资者应自行尽职调查[1][463] * **术语简化尝试**:报告承认AI和机器人术语混乱,并尝试简化一系列术语,如世界模型、模仿学习、LLM、预训练、数字孪生等[47] * **列举的机器人基础模型与世界模型**:报告列出了多家公司/机构开发的基础模型和世界模型示例[54][63][80][84] * **全球机器人AI赋能者概览**:报告以图表形式展示了该生态系统的关键参与者[244] * **谷歌的数据规模**:提及谷歌处理的令牌数量从2024年5月的9.7万亿个攀升至2025年4月的超过万亿个,并在2025年6月达到980+万亿个[224]
《时代》公布 2025 年度最佳发明:OpenAI 零入选,国产霸榜
36氪· 2025-10-10 19:51
文章核心观点 - 《时代》杂志评选的“2025最佳发明”榜单展示了近300项涵盖约40个分类的创新成果,这些发明共同描绘了未来生活的蓝图,预示着AI等技术的普及将深刻重塑日常生活、工作、医疗及娱乐等多个领域 [1][3][4][5] AI模型与平台 - **DeepSeek R1**:作为一款低成本开源推理模型,其训练成本仅为600万美元,性能可媲美OpenAI的o1模型,目前仍免费使用,显著降低了AI技术的应用门槛 [7][8][10] - **Claude Sonnet 4**:由Anthropic发布,在企业开发者中占据OpenAI两倍以上的市场份额,其上下文窗口可处理长达75000行代码,规模超过竞争对手两倍 [11][12] - **Google DeepMind Genie 3**:作为世界模型,能生成可交互的虚拟环境,潜在应用于教育场景(如虚拟古罗马探索)及自动驾驶的AI训练 [13][14][16] AI开发与计算硬件 - **Nvidia DGX Spark**:桌面级AI超算设备,尺寸与Mac Mini相近,配备128GB内存,可微调多达2000亿参数的模型,售价为3999美元,旨在推动AI计算能力的民主化 [17][19] AI应用软件与工具 - **Cursor**:结合内部及第三方AI模型自动化软件开发,超过50000家企业(包括半数以上财富500强公司)使用该工具,每日生成代码量超过1亿行 [21][23] - **Squarespace Blueprint AI**:通过问答方式引导用户生成独特网页设计,而非从零开始构建,强调AI对用户设计能力的增强 [24][26] - **Adobe Podcast Enhance Speech**:实时去除音频中的噪音、回声和失真,已增强超过1亿个音频文件 [27][29] - **Superfluent**:基于OpenAI和Google模型构建,通过对话式AI评估用户语言流利度并创建个性化学习场景 [30][32] - **Outcomes4Me**:免费AI应用,将医疗记录和基因组数据转化为易懂的癌症护理路径,已服务超过40万名患者,并被学术期刊评为质量最高的癌症应用 [36][37] - **Phia**:由斯坦福学生创立的AI购物助手,帮助消费者比价及判断购买时机,推出后已吸引超过50万用户及5000个品牌合作伙伴 [38][40] - **Pindrop Pulse for Meetings**:深度伪造检测器,可在两秒内验证通话另一端是否为真人,有效防止求职面试等场景中的诈骗 [42] 机器人技术与硬件创新 - **Figure 03**:家务机器人,能完成叠衣服、装洗碗机等简单任务,制造商Figure AI正进行大规模数据收集以训练其神经网络,计划于明年投入部分家庭使用 [42][44] - **宇树Unitree R1**:超敏捷人形机器人,重量仅24.5kg,拥有26个关节,可完成拳击、跑步等复杂动作,内置支持语音识别和图像处理的AI模型 [46] - **Meta Ray-Ban Display**:AI智能眼镜,右镜片配备600×600像素显示屏处理信息,独特肌电图腕带可通过前臂肌肉信号实现隐秘输入 [47][49] 消费电子产品与可持续解决方案 - **Lotus戒指**:由前苹果工程师开发的万能遥控戒指,通过指向控制家电开关,完整套件售价399美元,无需Wi-Fi或App [50][52] - **Infinite Machine Olto**:具有未来感外观的电动车,定位介于滑板车与电动自行车之间,售价3495美元,目前在中国生产 [54] - **Heat It**:蜜蜂大小的便携设备,利用集中热量缓解蚊虫叮咬的疼痛和瘙痒,无需化学药物,已售出约160万台,Amazon售价39.95美元 [57][60] - **循环再生茧**:由蘑菇和大麻纤维制成的可生物降解棺材,内衬苔藓以滋养自然,售价约4000美元,已有约2500次安葬使用记录 [62] - **BuzzKill**:Android应用程序,通过创建复杂规则筛选通知,完全本地运行不收集用户数据,拥有超过20000名用户 [64] 中国公司的表现 - 中国公司在榜单中表现活跃,涉及多个领域,包括AI模型DeepSeek、手机品牌荣耀的深度伪造检测技术、松鼠AI教育平台(已辅导超过2400万学生)、宇树机器人、华为消费电子产品等 [7][33][42][70][71]