核心观点 - 具身智能是人工智能的重要发展方向,被认为是实现通用人工智能的关键路径,其核心在于智能体通过物理身体与环境进行感知-理解-决策-行动的闭环交互 [1][2] - 行业正处于从实验室走向产业化、大规模商业化的前夜,中美两国在技术、资本和应用上展开激烈角逐,市场预计将迎来指数级增长 [1][11][46] - 商业化落地面临数据、技术、成本等多重瓶颈,但正通过世界模型、数据采集场、混合架构等方式寻求突破,并沿着从高ROI、低复杂度场景向高价值、高复杂度场景渗透的路径演进 [13][19][31] 定义与理解 - 具身智能是机器学习、计算机视觉与机器人技术的综合体现,智能体依托物理身体,通过与环境强交互并持续学习,展现出自主性、泛化性和适应性,是AI走向落地化和实用化的重要标志 [2] 商用场景分类 - 商用具身智能:服务于零售、餐饮、医疗、安防等复杂动态环境,更依赖多模态感知、人机交互和泛化能力,旨在提升服务体验与灵活运营 [4] - 工业具身智能:面向制造、能源、矿山等高度结构化场景,强调高精度、高负载和长周期稳定性,目标是提升效率与保障安全 [4] - 两者能力要求与技能瓶颈差异较大,但共同推动具身智能在不同维度的落地发展 [4] 战略与政策 - 具身智能是推动科技产业链升级和培育新兴产业的重要力量,有助于先进芯片、传感器、AI大模型等产业链环节的协同创新,并带动制造、交通、零售等场景转型升级 [6] - 具身智能是中美科技竞争的关键战役,关乎中国科技自立自强与国家竞争力的提升,是未来十年“弯道超车”的关键赛点 [6] - 中国已将具身智能纳入国家战略,中央层面密集出台行动方案、发展指导意见与资金支持,地方政府也发布专项规划、设立基金并建立产业联盟,推动行业加速发展 [8][9] 发展阶段与全球格局 - 发展历程分为三阶段:1950年起的哲学思辨与概念萌芽、2000–2020年的技术积累期、2020年以来大模型驱动与应用拓展期 [11] - 全球进入快速演进新拐点,美国凭借算力基础、顶尖模型与资本生态实现先发优势;中国则依托政策支持、场景驱动与产业链协同加速追赶 [11] - 未来五年,中美将在基础模型、算力和应用落地上展开比拼 [11] 发展瓶颈与突破 - 数据瓶颈:高质量多模态实操数据稀缺,仿真数据存在缺陷,且缺乏数据评价机制,数据获取主要依赖遥操作、仿真合成、动作捕捉及互联网视频图像 [13][15][16] - 技术瓶颈:灵巧手、泛化能力与Sim2Real(从仿真到现实)迁移等技术尚未成熟 [13] - 成本瓶颈:核心部件与算力投入居高不下 [13] - 商业瓶颈:投资回报周期长,伦理安全问题仍待解决 [13] - 突破路径:业界正通过构建“世界模型”、建设数据采集训练场(如2025年起北京、上海加快建设)、开发便携化工具和优化仿真等方式探索解决方案,以降低成本并获取高质量数据 [19] 模型技术演进 - 核心主线:通过多模态统一框架,将大型语言模型的推理能力与真实世界的感知、行动能力深度融合,催生能跨场景自主学习的“机器人大脑” [21] - VLA模型成为共识:视觉-语言-动作模型持续迭代,正逼近类似GPT-3的智能爆发临界点,其演进方向包括融合更多模态信息(视觉、语言、力觉等)以及生成适配不同机器人的泛化动作指令 [21][22] - 关键里程碑:2022年Google RT-1和Saycan初步验证范式;2023年Google RT-2和PaLM-E实现能力跃迁,正式提出VLA概念;2024-2025年进入生态开放阶段,如Google开源OpenVLA,英伟达推出开源基础模型Isaac GROOT及配套平台 [22] - 架构融合趋势:单一模型无法满足复杂现实场景,混合模型架构成为必然,即通过高层大模型(大脑)进行认知与规划,结合底层成熟算法(小脑)实现可靠执行,兼顾泛化性与可靠性 [23] 核心部件与自主化程度 - 灵巧手:是实现人机交互与精细操作的核心部件,面临小型化设计、敏捷控制和成本可靠性的“三难困境”,是技术工艺难度最大的环节之一 [25] - 自主化程度:类比自动驾驶,目前处于L2(初步自主移动)向L3(低技能操作探索)的过渡阶段;类比大语言模型,则已达到GPT-2水平,验证了规模定律的可行性,未来2-3年或达到能力质变的关键临界点 [27] 商业化路径与趋势 - 商业化突破点:大规模应用拐点需在续航、延迟、执行、可靠性与经济效益五大维度均跨过可用门槛,并形成正向增强的价值飞轮 [29] - 渗透路径:商业化正沿价值阶梯演进,初期集中在高投资回报率、低复杂度的确定性场景(如工业制造、仓储自动化、餐饮零售基础场景),随后向高复杂度、高价值的战略性场景渗透,最终实现通用化服务 [31][34] - 付费模式演进:从当前的一次性整机销售为主,辅以软件服务,未来可能向降低客户前期投入的“机器人即服务”模式演进,并最终发展至与客户业务价值深度绑定的“按任务完成效果付费” [35] 市场规模预测 - 全球市场:2025年全球具身智能规模预计达192亿元人民币,未来五年复合增长率达73%,预计十年左右达到年万亿级市场需求,关键变量是机器人售价从目前的百万级人民币在十年左右降至20多万元 [46] - 中国市场:需求已初步显现,凭借完善的工业体系和供应链,预计五年左右进入快速降本通道,5-10年率先触及经济性拐点,保守估计市场规模将从2025年的21亿元人民币增长至2035年的超过2800亿元人民币,实现十年百余倍增长 [49][50] 产业链与竞争格局 - 产业链复杂度:不亚于汽车制造业,涵盖执行器、传感、计算、机身、电池、基础模型等漫长链条,中国企业在产业环节覆盖度上已占显著优势,并在下游整机集成和应用场景上展现巨大潜力 [41] - 三路核心玩家:1)以Figure为代表的AI原生技术挑战者;2)以ABB、擎朗为代表的传统工业/商业机器人头部玩家;3)以特斯拉、亚马逊为代表的跨界需求巨头 [55] - 中期整合趋势:产品同质化已现,高昂的研发投入、复杂的供应链管理等挑战将导致行业在未来三年面临第一轮洗牌,最终格局将是少数玩家的市场 [57] - 初创企业策略:需比巨头看得更准、行动更快、人效更高,并找到能带来长期赋能价值的战略伙伴和投资人,以应对资源紧张和巨头夹击的挑战 [59][60] 资本动态 - 全球资本市场高度关注,中美企业单轮融资额不断创新高,A轮融资额1-3亿美元已是常态 [43] - 例如,2025年9月Figure完成C轮超10亿美元融资,估值达390亿美元;同期1X也启动新一轮10亿美元融资;2025年上半年中国具身智能企业近亿美元融资达4笔以上 [43][44] 出海加速 - 2024-2025年中国具身智能产业进入出海加速期,商业服务与工业机器人出口同比增长显著,中国已成为全球第二大工业机器人出口市场 [53][54] - 典型路径:1)技术出海:如宇树科技人形机器人凭借自研关节电机与算法,切入沙特智慧工厂等场景;2)本地化运营出海:如擎朗智能通过产品本地化改造及在日本建立密集服务网络,成功打开高标准市场 [53][54] 重点公司案例 - 特斯拉Optimus:从2021年概念发布,历经原型机迭代,2023年底Gen 2展示更轻、更快、更灵巧的动作能力,采用全套自研执行器与传感器,目标最早2025年底对外销售,2026年批量生产,长期目标百万级年产量 [62] - Figure AI:全球通用人形机器人代表企业,估值390亿美元,产品快速迭代,并引入自研通用VLA模型Helix,采用“大脑”(低频规划)与“小脑”(高频执行)协同的系统架构,旨在打造具备跨场景泛化能力的类人劳动力 [64][65] - 擎朗智能:实现人形与轮式机器人双线布局,构建覆盖多场景的完整产品生态,其综合技术力在场景理解、数据库规模、定制能力等六大维度显著高于行业平均,2024年在上海虹桥机场盛贸酒店落地全球首个“通用+专用”机器人协同运营的智慧酒店案例 [66][71][73] - 节卡机器人:拥有从灵巧协作整机到数据训练系统的多元产品生态,依托在汽车、电子等工业场景的大规模部署获取海量高质量数据,并通过分层混合架构平衡AI模型创新与工业稳定性需求 [77][79][81] - 因时机器人:作为微型伺服电缸领导者,通过垂直整合自研核心部件,突破灵巧手在性能、尺寸和成本上的“不可能三角”,其产品已在工业制造、人形机器人、科研算法训练等关键领域实现规模化落地 [83][85][88]
2025商用具身智能白皮书
艾瑞咨询·2026-01-19 08:06