文章核心观点 - 2025年成为机器人基础模型的“元年”,以视觉-语言-动作模型为代表的新一代范式开始涌现,其核心在于将大语言模型的常识推理能力与机器人控制相结合[23][31][35] - 机器人基础模型的发展是60年技术积累的集大成者,融合了编程式机器人的精确控制、基于模型方法的环境感知、行为克隆的示范学习、强化学习的自我优化以及大语言模型的常识推理[35] - 当前机器人行业围绕如何实现“通用机器人”的路径,形成了全栈整合、垂直突破和生态平台三大主要流派,它们对“通用性”的实现有着不同的底层假设和赌注[41][55][70][79] - 尽管2025年各家公司展示了令人惊叹的技术进展和Demo,但大规模商业化落地仍面临挑战,处于“展示很精彩,落地还未知”的阶段[82] 机器人技术范式演进 - 第一代:编程式机器人:始于1960年代,完全依赖预设代码执行固定动作,零容错和零灵活性,典型代表是1961年在通用汽车工厂投入使用的Unimate[6][8] - 第二代:基于SLAM的方法:兴起于1990年代,核心是让机器人通过传感器感知环境并构建地图进行路径规划,在导航任务上成功,但在操作复杂任务上效率低下,例如2010年机器人叠一条毛巾平均需24分钟[9][11] - 第三代:行为克隆:在2010年代中期出现,通过模仿人类演示数据来训练神经网络,实现了从数据中学习,但存在数据效率低和泛化性差的致命缺陷,例如训练抓取需要数十万次数据且难以跨机器人型号迁移[13][15] - 第四代:强化学习:2010年代后期随AlphaGo成功而受关注,让机器人通过试错和奖励机制自主学习,但存在训练速度慢、成本高、难以获取物理常识的根本问题[16] - 第五代:VLA模型:2020年代中期随大语言模型成熟而诞生,将视觉、语言和动作统一到一个端到端的神经网络中,能直接理解指令并利用大模型中的常识进行推理与规划,代表了当前的范式革命[17][18][19] 2025年成为机器人基础模型元年的关键因素 - 大语言模型“够用了”:2024至2025年,OpenAI、Anthropic、Google等公司发布的模型在理解指令、规划任务和常识推理方面已足够成熟和稳定,为具身智能提供了良好基础[24][26] - 算力价格大幅下降:随着GPU云服务商价格战和NVIDIA GPU大量铺货,算力强度增强而等效价格降低,初创公司已能负担数千张卡进行模型训练[27][30] - 硬件供应链成熟:2024年人形机器人热潮带动资本涌入上游零部件领域,中国供应商在电机、减速器、传感器等部件上获得大额融资并扩产,降低了硬件成本和机器人开发门槛[31][33] 闭源模型机器人主要流派 - 全栈整合派: - 代表公司为特斯拉Optimus和Figure AI,核心理念是机器人基础模型必须与硬件深度垂直整合才能发挥最大效果[41] - 特斯拉试图将其在FSD上积累的海量真实世界数据、端到端架构迁移至机器人,但2025年量产计划遇阻,组装1000多台后暂停生产并面临重新设计,且其使用人类视频训练模型的方法受限于机器手与人手之间的“物理差异”[43][45][46][47] - Figure AI在2024年初与OpenAI深度合作,2025年2月宣布分手并迅速推出自研的Helix模型,该模型采用“System 1, System 2”双系统架构,用单一神经网络控制上半身35个自由度,公司于2025年9月完成10亿美元C轮融资,估值飙升至390亿美元[49][50][52][54] - 垂直突破派: - 代表公司为Dyna Robotics,核心理念是追求“从专精到泛化的涌现”,先让机器人在洗衣房、餐厅等垂直场景“打工”做到极致,积累高质量数据和元学习能力,再迁移至其他任务[55][57] - Dyna Robotics于2025年4月发布DYNA-1基础模型,其机器人在24小时内自主折叠700多张餐巾,成功率超过99.4%,吞吐量达人类速度的60%[55] - 该流派认为机器人基础模型的缩放定律与大语言模型不同,性能瓶颈更在于“数据质量”和“物理一致性”,而非单纯追求参数和数据量[60][62] - 其他玩家包括从通用模型切入的Skild AI,以及拥有海量垂直场景数据的亚马逊,后者在2025年7月宣布部署了第100万台专用机器人,并正在开发通用机器人基础模型[65][68][69] - 生态平台派: - 代表参与者为NVIDIA、Google、OpenAI、Meta等,核心理念是通过控制工具链和生态标准来赢得市场,技术路线本身并非唯一决胜因素[70][72] - NVIDIA在2025年3月GTC大会上开源了GR00T N1模型,但旨在通过全套生态工具链实现生态锁定[72] - Google通过开源RT系列研究及开放数据集在学术界建立影响力,并推动Gemini AI成为通用控制平台[74] - OpenAI和Meta采取投资、招聘和内部研发并举的策略低调布局机器人平台,例如OpenAI投资了Physical Intelligence[74][77] 行业现状与未来展望 - 2025年现状:各家公司技术展示精彩但落地规模有限,特斯拉Optimus量产遇阻,Figure AI估值虽达390亿美元但实际部署仅几十台,NVIDIA的GR00T N1实际应用情况尚不明确[82] - 商业化路径与时间线:预计将率先在商用服务场景与人工协同完成任务,家用场景的进入可能早于预期,不需要完整的通用人工智能,可能从叠衣服等单一功能切入,时间线可能在1-2年左右[83][85] - 市场潜力:人形机器人有望成为史上最庞大的产业之一,预测将是一个5万亿美元的市场,全世界将遍布十亿台机器人[35]
机器人“大脑”60年进化史:基础模型五代进化与三大闭源流派