VLA模型
搜索文档
人形机器人成本真相:美国卖25万,中国凭什么只卖1万还不到?
创业邦· 2026-03-27 08:15
文章核心观点 - 文章通过分析开源网站Humanoid Atlas的数据,揭示了全球人形机器人行业在成本、供应链和技术路径上的竞争格局,核心观点是中国厂商凭借成熟的供应链和规模效应在硬件成本上具有显著优势,而美国厂商则倾向于垂直整合和软件算法领先,行业下半场的竞争将聚焦于工程化降本、供应链掌控和高质量数据积累[4][6][51] 根据相关目录分别进行总结 行业成本现状与差异 - 全球人形机器人成本呈现两极分化:美国厂商如Agility Robotics工业级型号售价达25万美元,Apptronik售价15万美元,特斯拉Optimus的物料清单成本约4万美元,目标售价低于2万美元[12] - 中国厂商展现出强大的成本控制能力:宇树科技G1模型物料清单成本为11500美元,售价13500美元;智元、星动纪元等机型价格在2万至4万美元区间;Noetix甚至探至5500美元的低位[13][14][15] - 成本差异的核心在于关键零部件:一个标准旋转执行器中,谐波减速器占成本36%,力矩传感器占30%,无刷电机及其他占约34%[18] - 中国厂商的成本优势源于新能源汽车和消费级无人机产业的供应链红利,珠三角到长三角的供应链网络能提供低成本压铸件、高密度电池包和车规级电机,实现了“制造摩尔定律”[21][24][25] 供应链结构与地缘政治影响 - 关键零部件存在供应瓶颈与地缘风险:谐波减速器高端市场由日本企业主导,如哈默纳科占据20-25%市场份额,全球仅12%的机床制造商能满足技术要求,若特斯拉实现年产百万台Optimus,全球现有高精度减速器产能将无法满足[28][20] - 美国机器人供应链依赖亚洲:其电机依赖中国主导的稀土永磁材料,传感器、丝杠等也高度依赖亚洲代工体系,若供应链硬性脱钩,关键零部件成本可能瞬间飙升2到3倍[30] - 中美企业采取不同的供应链策略:中国路线是“生态化反”,通过扶持本土供应商击穿零部件价格底线,以快速量产跑通商业闭环;美国路线是“极致的垂直整合”,如特斯拉自研执行器结构、电机和算法,旨在构建从底层硬件到软件的完整护城河[34][35][36][37] 技术演进与竞争维度 - 具身智能大模型是行业灵魂:2024年底至2026年初爆发的具身智能大模型,如Nvidia GR00T、OpenAI相关模型,使机器人能通过视觉-语言-动作模型进行端到端的物理推理和动作控制,硬件成为“宿体”,数据成为核心壁垒[41][44][46] - 美国在软件与数据积累上具有先发优势:例如Figure因接入OpenAI大模型获得高估值,特斯拉通过工厂内数百名工人的遥操作数据积累来训练其模型[47][49] - 行业下半场竞争聚焦三大硬核指标:工程化降本能力,需将量产物料清单成本压至1万美元临界点以下并保证高可靠性;供应链掌控力,需在谐波减速器、空心杯电机等卡脖子环节实现突破;高质量数据飞轮,需在真实场景部署上万台设备,通过物理反馈反哺视觉-语言-动作模型[51]
VLA别再「走神」:即插即用提升视觉泛化,相对Pi0.5提升18%
量子位· 2026-03-25 07:52
核心观点 - 由至简动力、北京大学、香港中文大学联合提出的DeepVision-VLA框架,通过为视觉语言动作模型安装“即插即用”的视觉增强器,解决了模型在深层动作预测时对关键视觉区域依赖下降的问题,从而显著提升了机器人操作的精度与成功率 [4][6][7] 技术问题与发现 - 研究发现,现有视觉语言动作模型在深层进行动作预测时,对关键视觉区域的依赖会持续下降,导致模型在任务后期“走神”或“看不清”,而非初始视觉编码能力不足 [3][4][7] - 通过系统分析OpenVLA、π、QwenVLA-OFT等代表性模型,发现浅层动作预测高度依赖任务关键视觉信息,但随着网络层数加深,即使移除关键视觉区域,对动作预测的影响也显著减弱,表明视觉信息在深层被“低利用化” [16][19][23][25] 解决方案:DeepVision-VLA框架 - 框架核心包含两个关键设计:视觉-语言混合Transformer用于在深层注入高质量视觉特征,以及动作引导的视觉剪枝策略用于筛选高价值视觉信息 [7][24][26] - VL-MoT设计让VLA模型的深层与高分辨率视觉专家共享注意力,使增强的视觉表征在深层动作预测阶段直接参与,而非停留在浅层输入融合 [24][26][28][31] - AGVP策略利用VLA浅层保留的强任务视觉定位能力,生成动作引导的视觉响应图,仅筛选并传递最相关的视觉信息至深层,以降低噪声与计算成本 [24][29][33][34][42] 性能表现 - 在RLBench模拟器的10个机器人操作任务上,DeepVision-VLA达到83%的平均成功率,相比基线Pi0.5提升18个百分点 [4][8][35] - 在真实世界复杂操作任务中,模型取得91.7%的平均成功率,相比基线Pi0.5提升7.5个百分点,在具体任务如“堆叠可乐罐”、“写字母S”、“将水果放入盘子”、“将可乐倒入瓶子”中表现优异 [4][8][40][43][44] - 在未见过的背景和光照条件等零样本泛化测试中,模型性能下降幅度显著小于基线,例如在背景变化下任务成功率仅下降5%,而基线下降18%,证明其增强了模型对关键视觉结构的稳定提取能力而非单纯的任务记忆 [4][46][47][48]
人形机器人大时代-从宇树科技看国产具身智能发展
2026-03-22 22:35
关键要点总结 一、 公司概况与市场地位 * 公司为**宇树科技**,所属行业为**人形机器人及具身智能行业**[1] * 2025年,公司**纯足式人形机器人出货超5,500台**,位居全球第一[1][2] * 公司**四足机器人出货量蝉联全球首位**,已确立双领域市场领先地位[1][2] 二、 核心财务表现与盈利能力 * 2025年公司实现**整体收入17亿元**,**毛利率达到60%**[2] * 2025年前三季度**综合毛利率达60%**,显著高于行业35%-47%的均值[1][3] * 2025年**扣除非经常性损益后的净利润高达6亿元**,前三季度**扣非净利率大幅升至36.9%**[1][2] * 公司于**2024年实现扣非净利润转正**,盈利能力进入快速提升的正循环[1][12] * 政府补助等非主营业务收益占利润总额比例仅为**较低的个位数水平**,盈利能力主要依赖主营业务[11] 三、 业务结构与产品线 * 截至2025年前三季度,**人形机器人业务已成为主要收入来源**,营收占比提升至**51%**,四足机器人业务营收占比约为**42%**[7] * 人形机器人产品分为**H系列(全尺寸)、G系列(中型)和R系列(小型)**,目前收入主要由H系列和G系列构成[12] * 四足机器人产品线分为面向消费级的**Go系列**和面向行业应用的**B系列**[14] * 人形机器人业务**毛利率接近63%**,四足机器人业务毛利率**超过55%**[1][7] * 人形机器人单位价格受益于供应链优化,但为应对市场竞争有所下调,例如**G1型号定价从最初的9.9万元降至8.5万元**[13][17] 四、 下游应用场景与客户 * 人形机器人应用仍以**科研教育为主**,2025年前三季度占比为**74%**,但**C端商业消费(约17%)和行业导览等应用场景正快速增长**[1][13] * 四足机器狗的**C端商业消费场景已相对成熟**,同期C端消费占比达到**42%**,已超过科研教育领域[19] * 公司**客户结构非常分散**,2025年前三季度前五大客户(CR5)的收入占比仅为**10%**[19] * 销售模式以**直销为主**,线下直销收入占比超过五成,客户复购率较低,**存在2至3次复购行为的客户占比仅为10%左右**[20] 五、 高盈利能力的核心原因 * 高盈利能力的核心在于**四足机器人业务实现了标准化和供应链管理的成熟运作**,人形机器人与四足机器人在大部分零部件上具备通用性,从而在人形机器人产品上实现显著的成本优势[2] * **期间费用率远低于行业平均水平**:销售费用率从2022年的21%降至2025年前三季度的6.5%,远低于行业普遍的30%-40%区间;管理费用率(剔除股权激励)远低于行业约20%的平均水平[9] * 采取**高度自主可控的供应链模式**,直接采购齿轮与绕线自主生产,前五大供应商集中度(CR5)仅**21.7%**,有效降低成本并加速产品迭代[1][14] * 硬件层面采用**“接地气”的旋转关节设计方案**,通过高扭矩密度电机搭配低传动比减速器,避免采用成本较高的技术路线[15] 六、 技术研发与战略方向 * 研发重心转向**具身智能大模型**,2025年至2026年间重点展示在**世界模型和VLA模型**方面的进展[1][15] * 2025年技术发展重点为**运动智能的提升**,关键突破包括完成**基于全身的遥操作技术**、加强**全身深度强化学习技术**、发展**集群控制技术**[21][22] * 2026年研发重点聚焦于探索**VLA和世界模型**等前沿框架,并着力搭建**可复用的数据学习体系**以强化规模化效应[23] * 公司于**2026年1月开源了其VLA模型**,该模型单一策略可完成**1,212个不同的操作任务**[15] * 在算法层面,公司原有的技术基础是**模型预测控制加强化学习**[15] * 研发费用中,**云算力租赁及云服务费用的金额及其占比自2025年起显著增长**,以支持具身智能大模型开发[10] 七、 管理团队与股权结构 * 创始人**王兴兴**同时担任CEO与CTO,拥有超过15年的机器人研发经验[4] * 上市前,王兴兴直接持股比例约为**23.8%**,但通过表决权设置,其**实际表决权比例超过68%**[5] * 主要股东包括员工持股平台及**美团、红杉中国、经纬创投**等顶级机构投资者[1][5] * 员工股权激励通过直接股权支付和向员工持股平台增资两种方式实施,相关费用计入经常性或非经常性损益[6] 八、 行业观点与竞争格局 * 公司管理层认为,当前具身智能行业**尚未迎来其“GPT时刻”**,判断拐点的标准是出现一个模型能在80%的场景中达到70%至80%的任务成功率[24] * 预计到**2030年,全球人形机器人市场规模有望达到150亿美元**,销量约60万台[17] * 行业尚处早期,竞品出货量数据大多未经官方确认,且**产品定义(如是否包含轮式机器人)尚不统一**[16] * 公司在算法层面与**上海人工智能实验室、清华大学实验室以及海外的Physical Intelligence等研究机构处于同一梯队**,在开源社区认可度上,其模型在所选国内可比公司中位列第一[18] * 四足机器人行业竞争格局已基本形成并出现明显分层,宇树科技在国内市场占据非常高的市场份额[14] 九、 其他重要信息 * 公司售出的人形机器人中有**73%不配备灵巧手**,配备灵巧手的核心供应商是**因时机器人**[16] * 在四足机器人的主要客户中出现了**同行企业银河通用**,该公司在2025年前三季度向宇树科技进行了采购[19] * 从投资角度看,除了关注核心供应商,**投资宇树科技背后的“金主”**(如持股的上市公司)是产业链中一个值得关注的方向[25]
具身智能科技前瞻探索(第I期)
国泰海通证券· 2026-03-01 15:54
模型性能与优化 - HALO模型在RoboTwin2.0模拟基准上的平均成功率达到80.5%,较基线模型pi0高出34.1个百分点[2] - QuantVLA方法将模型权重量化至4比特、激活量化至8比特,实现约70%的内存节省[3] - VLA-Perf分析框架提炼出15条可落地的结论,为模型与推理系统优化提供量化参考[4] 训练与部署创新 - RL-Co框架通过强化学习实现虚拟与真实数据协同训练,旨在降低VLA模型的高成本真实数据依赖[5] - QuantVLA为VLA模型在资源受限的机器人平台上的轻量化部署提供了实用路径[3] - VLA-Perf框架可预测任意VLA模型与推理系统组合的推理延迟与吞吐量[4] 行业风险提示 - 行业面临技术研发进度、技术成果转化及商业化应用不及预期的风险[6]
争夺春晚:人形机器人集体登上国民舞台的生存暗战
新浪财经· 2026-02-17 09:44
行业趋势与竞争格局 - 人形机器人行业正从“技术秀场”迈入“规模化品牌竞争”的早期阶段,企业通过春晚等顶级曝光争夺大众认知心智,为B端和C端市场铺垫 [4] - 2026年全球人形机器人出货量预计在3万台左右,市场尚未完全爆发但已拥挤着数百家创业公司,竞争白热化 [9] - 2026年行业将迎来企业分化,资本市场估值逻辑正从追捧“概念与热度”转向审视“可验证的落地进度与营收能力”,资源将快速向头部集中 [12] 企业战略与市场行为 - 2026年春晚成为人形机器人企业激烈的“卡位战”,宇树、魔法原子、银河通用、松延动力四家公司先后登台,而2025年仅有宇树一家实现现象级破圈 [1] - 企业争相涌入春晚的核心意图在于品牌曝光、向资本市场释放信号以助推融资,并直接撬动与B端及政府的合作,对获取政府订单、大型企业POC项目具有关键推动作用 [6] - 头部企业登台意在“防御卡位”,高估值独角兽急需确立“头部形象”,而松延动力等年轻公司则视春晚为巨大的品牌放大器,能带来几何倍数的曝光以提升新品牌国民度 [6] - 春晚合作门槛极高,传闻部分席位涉及巨额赞助或达1亿元人民币,智元机器人因预算有限优先保障研发而公开表示不参加,侧面印证了高昂代价 [5] 技术发展与供应链现状 - 人形机器人应用场景已从早期试点验证,拓展至工业上下料、精密装配及仓储物流等实用领域,完成了从“昂贵玩具”到“生产工具”的身份转变 [9] - 基础运动硬件供应链正趋于成熟与“平权”,但真正的护城河在于核心零部件的自研与供应链整合能力、具身智能大模型以及低成本高效率的数据积累与工程化能力 [10] - 春晚舞台对稳定性要求极高,是国产核心部件成熟度的试金石,供应链企业期待未来登上春晚的机器人搭载国产核心部件,标志着国产供应链已具备支持高强度表演的可靠性 [9] 商业化挑战与行业痛点 - 2026年被视作规模化商用元年,能否拿到订单不取决于表演能力,而在于能否在工厂每天稳定工作并将投资回收期控制在16个月以内 [12] - 目前制约人形机器人爆发的核心瓶颈在于“大脑”,现有的VLA模型并非为机器人设计,缺乏真实物理世界的数据积累,其“电动汽车时刻”或“ChatGPT时刻”在未来5年内恐难发生 [12] - 行业存在明显的“剪刀差”,一边是基于未来想象的巨大热情,另一边是必须面对的交付答卷,技术需从“表演”走向“实用”,精准解决用户实际痛点而非创造伪需求 [10][12] - 机器人登上全民舞台是具身智能从B端走向C端认知的重要标志,意味着技术已发展到足够稳定、友好的阶段,有助于推动公众完成机器人“从工具到伙伴”的认知升级 [7]
2025商用具身智能白皮书
艾瑞咨询· 2026-02-15 08:08
行业定义与战略意义 - 具身智能是人工智能的重要发展方向,被普遍认为是实现人工通用智能的重要路径,其核心特征在于智能体依托物理身体,通过感知—理解—决策—行动的闭环与环境进行强交互并持续学习 [2] - 具身智能是推动科技产业链升级和培育新兴产业的重要力量,有助于先进制程芯片、精密传感器、AI大模型、先进能源等产业链环节的协同创新,并带动制造、交通、零售、医疗等场景转型升级 [6] - 具身智能是中美科技竞争的关键战役,中国的突破关乎科技自立自强与国家竞争力的提升,是未来十年“弯道超车”的关键赛点 [6] 市场前景与规模预测 - 全球市场:根据摩根士丹利、高盛等预测,2025年全球具身智能规模将达到192亿元人民币,未来五年复合增长率达73%,预计十年左右达到年万亿级市场需求 [46] - 中国市场:保守估计,市场规模将从2025年的21亿元人民币增长到2035年的超过2,800亿元人民币,实现十年百余倍增长 [50] - 资本热度:作为第七次科技浪潮的主升浪,全球资本市场对具身智能投资火热,美国公司Figure AI在2025年9月C轮融资超10亿美元,估值达390亿美元,中国公司上半年近亿美元融资达4笔以上 [1][43][44] 发展阶段与商业化现状 - 发展历程可分为三阶段:1950年起的哲学思辨与概念萌芽,2000–2020年的技术积累期,以及2020年以来的大模型驱动与应用拓展期 [11] - 当前自主化程度:类比自动驾驶,处于L2-L3的过渡阶段;类比大语言模型,则已达到GPT-2的水平,验证了scaling law的可行性 [27] - 商业化正沿着价值阶梯演进,初期应用集中在高投资回报率、低复杂度的“确定性”场景,如工业制造、仓储自动化和餐饮零售的基础场景 [31][34] - 当前主要商业模式为一次性整机销售,未来可能演进为“机器人即服务”模式,并最终发展至“按任务完成效果付费” [35] 技术瓶颈与突破方向 - 面临四大瓶颈:高质量多模态实操数据稀缺、灵巧手与泛化能力等技术不成熟、核心部件与算力成本居高不下、投资回报周期长及伦理安全问题待解 [13] - 数据是行业发展的关键瓶颈,当前数据获取主要依赖遥操作、仿真合成、动作捕捉及互联网视频图像四种方式,但高质量数据依然高度稀缺 [15][16] - 业界正通过“世界模型”、建设数据采集训练场(如2025年起北京、上海加快建设)以及工具创新等方式探索数据困境的解决方案 [19] - 灵巧手是核心部件中技术、工艺难度最大的环节,面临小型化设计、敏捷控制和成本可靠性的“三难困境” [25] 模型演进与技术趋势 - 视觉-语言-动作模型成为发展共识,核心主线是通过多模态统一框架,将大型语言模型的推理能力与真实世界的感知、行动能力深度融合 [21] - 模型演进正经历从初步验证到能力跃迁的过程,例如谷歌从RT-1、RT-2到开源OpenVLA,英伟达推出通用性开源基础模型Isaac GROOT [22] - 技术演进方向包括融合更多模态信息(如视觉、语言、力觉),以及生成适配不同构型机器人本体的动作指令以增强泛化能力 [22] - 行业共识是采用混合模型架构,通过高层大模型进行认知、理解与规划,同时结合底层成熟算法实现可靠、精准的执行,形成“大脑”与“小脑”协同模式 [23] 产业链与竞争格局 - 产业链复杂度不亚于汽车制造业,涵盖从执行器硬件、传感与感知、计算和存储到基础模型等漫长链条,中国企业在产业环节覆盖度上已占据显著优势 [41] - 全球竞争格局显现出三股核心力量:以Figure为代表的AI原生挑战者、以ABB和擎朗智能为代表的场景资源先行者、以及以特斯拉和亚马逊为代表的自带需求的跨界巨头 [55][60] - 中期整合趋势不可避免,产品同质化已初现,高昂的研发投入、复杂的供应链管理等挑战将促使市场向少数玩家集中 [57] - 初创企业需凭借灵活高效、快速创新、定制服务等核心竞争力,并找到能带来长期赋能价值的战略伙伴,以应对巨头的夹击 [59] 典型企业案例分析 - **Figure AI**:美国代表性企业,估值390亿美元,致力于打造通用自主人形机器人,其产品从Figure 01快速迭代至Figure 02,并引入自研通用VLA模型Helix,逐步迈向跨场景泛化能力 [1][64][65] - **擎朗智能**:中国标杆企业,实现了人形机器人与轮式机器人双线协同布局,构建了完整的具身机器人生态矩阵,在全球60余个国家拥有80多个运营中心 [66][71][75] - **宇树科技**:国内头部厂家,宣称2025年营收突破10亿元人民币,其人形机器人已出海至沙特等市场,验证了海外商业化可行路径 [1][53][54] - **节卡机器人**:拥有丰富的具身智能产品矩阵和EVO智能平台,已在汽车、电子等复杂工业场景大规模部署,依托庞大的存量设备网络构建了独特的数据壁垒 [77][79][81] - **因时机器人**:作为微型伺服电缸的领导者,通过垂直整合自研核心部件,推出了系列化的灵巧手产品矩阵,在工业制造、人形机器人等领域实现商业化落地 [83][85][88] 中国产业特色与出海 - 政策激励:近两年来,中国将具身智能纳入国家战略,中央与地方政府协同出台行动方案、发展指导意见与资金支持,推动技术攻关、产业链协同和场景开放 [8][9] - 产业优势:中国拥有机器人领域最完备、成本最有优势的工业体系和供应链,以及最大的应用市场,预计在五年左右进入快速降本通道 [39][50] - 出海加速:2024-2025年,中国具身智能产业进入出海加速期,商业服务与工业机器人出口同比增长显著,形成全球第二大出口市场,代表企业正从“单点出货”迈向“体系化落地” [53][54]
400亿狂热追逐:具身智能2025投资战事
36氪· 2026-02-12 09:46
行业阶段与市场定位 - 行业内部对具身智能发展阶段存在分歧,部分观点认为其即将在2026上半年达到“GPT-2时刻”,即证明某些技术路径可行,而更多受访者认为行业尚处于“GPT-1”阶段,即搭建验证可行性的技术环境 [2][3] - 投资阶段定位至关重要,假设在GPT-3.5和GPT-1/2时期投资OpenAI,至2026年获得的估值增长将分别为30倍和大约100倍 [4] - 宇树科技在2025年春晚意外走红,使行业提前进入公众视野,引发投融资格局剧变,投资者争相寻找“GPT-1时期”的OpenAI [4] 投融资市场热度与估值变化 - 2025年行业投融资活动激增,融资事件数从2024年的105起增加至2025年的333起,融资金额从95.25亿元扩大至405.99亿元,分别激增217%和326% [6] - 项目估值快速攀升,早期项目估值被抬高,成长期项目估值上升加快,例如它石智航在天使轮及天使+轮分别融资1.2亿美元和1.22亿美元 [9] - 过去一年项目单轮估值涨幅平均浮动在50%-100%之间,市场存在阶段性估值跃升,例如10亿美金被视为一个对应更高技术与商业化门槛的关口 [9] - 估值模型尚不明确,更像一种“玄学”,估值能否持续取决于行业重大技术突破和持续大规模商业化落地 [10] - 部分案例显示估值在短期内飙升,例如有项目在半年内估值从5000万美元达到4亿美元,另有项目在三个月内估值从7000万美元窜升至数亿美元 [6] 主要参与者与投资策略 - 投资机构态度在2024至2025年间发生转变,从谨慎观望转为激进出手,导致投资相同公司的成本上涨了四五倍 [12] - 一线美元基金是行业早期投资主力,同时部分国资机构投资表现积极且高效,例如无锡锡创投、珠海科技产业集团等对上下游进行了相对完整的布局 [12][13] - 国资机构投资主动性提升,决策效率加快,例如有机构在见完创始人后可由领导直接拍板投资 [13] 代表性公司估值情况 - 多家具身智能公司估值达到百亿级别,例如优必选市值653.92亿元,云深处、智元机器人估值均为150亿元,宇树科技估值130亿元,众擎机器人、星海图估值均为100亿元 [14] - 其他公司如傅利叶估值80亿元,星动纪元估值76亿元,千寻智能、松延动力估值均为40亿元 [14][15] 技术进展与商业化挑战 - 从技术进程到商业落地的发展不及部分投资者预期,虽然VLA模型概念火热,但泛化能力距离期待仍差很多,天花板可能没有想象中高 [17] - 行业在2024年世界机器人大会前后经历过小低潮,因现场演示与终局期望差距较大 [17] - 技术红利扩散速度快,在共同的技术瓶颈面前,领先公司可能很快被落后者赶上,存在类似AI 1.0时期商业红利被传统巨头获取的风险 [17][18] - 商业订单和营收规模成为企业自证实力的关键,一家头部机器人公司2025上半年营收同比增长了300% [21] - 量产能力是重点观察指标,千台量产被视为一个重要门槛,但创业者强调需循序渐进,避免为拼订单陷入虚假繁荣 [23][24] 行业竞争与未来展望 - 2026年行业竞争的主线任务是“抢钱”和“抢人”,拥有自动驾驶背景的创始人因经历过资本涌入和量产摸索而备受关注 [20] - 市场营销和品牌推广被认为有效,行业通过春晚等国民级曝光获得了实质性好处,并成为各类科技展会的主角 [21] - 行业存在“命题作文”现象,即投资人与创业者默契地以符合“港股18C”等上市标准为目标,按部就班推动公司上市 [19] - 对行业是否真正繁荣存在不同看法,有观点认为很多公司仍在基于现有模型微调,技术传承性可能存在问题,也有观点坚信行业正迈向技术突破 [24][25] - 有判断认为,在这波狂热的投融资中,60%-70%的投资人最终可能亏损 [25]
投资者:产品必须围绕场景落地 三条技术路线并行竞速 各有瓶颈
每日经济新闻· 2026-02-09 23:10
行业核心观点 - 人形机器人行业已从表演展示阶段进入以“场景落地”和“创造真实价值”为核心的“实干”阶段,技术路线竞争白热化,但最终考验在于能否在具体场景中实现稳定、可靠、经济的长时间作业 [1][2][3][4][5] 行业现状与市场预期 - 2025年央视春晚宇树科技人形机器人表演带动行业热度,2026年春晚银河通用机器人作为指定具身大模型机器人将再次登台 [1][2] - 高工机器人产业研究所数据显示,2025年国内人形机器人出货量预计达1.8万台,较2024年激增超650% [2] - 2026年国内人形机器人出货量有望攀升至6.25万台 [2] - 行业已过“机器人会跳舞就能卖得好”的野蛮生长阶段,投资人更看重企业是否有成型产品和落地场景 [1][3] - 当前只有唱歌跳舞类娱乐机器人能实现稳定营收,整个行业仍处于“研发向工程转化”阶段 [12] 技术路线竞争 - **VLA(视觉语言动作)模型路线**:以Figure AI、智元机器人为代表,追求“通用智能”,通过端到端单一模型实现视觉感知、语言理解到动作执行,优势在于强大的语义理解能力,短板是计算开销大,对硬件续航、散热要求高 [6] - **世界模型路线**:以特斯拉为代表,在AI系统内部构建物理世界模拟器,让机器人预测自身行动后果,重度依赖高质量仿真数据以降低对真机数据的依赖 [8] - **分层决策与软硬件协同路线**:以波士顿动力、智元机器人为代表,将复杂任务拆解,由大模型负责语义理解与任务分解,传统算法负责定位、导航、精密控制等,优势在于故障易隔离、确保控制回路响应速度 [8] - 各技术路线并非相互排斥,需要协同发展,技术选型需综合考量部署环境、网络条件、算力支撑等现实因素 [8] 核心技术挑战与焦点 - **泛化能力**:提升机器人适应不同场景的能力是核心难题,VLA模型通过结合大型视觉语言模型和人类操作数据来提升理解和泛化能力,但面临数据昂贵、算力消耗大、执行速度慢等挑战 [9] - **数据质量**:数据的多样性和干净度至关重要,“脏数据”会严重破坏模型的泛化能力,提升AI操作系统的“下限”(如连续工作10小时不犯错)比展示“上限”更具技术难度和行业含金量 [10] - **算力与稳定性**:高频本地推理是保障机器人稳定性的核心,例如10赫兹的推理频率意味着微小扰动能在0.1秒内被处理,而2-3赫兹的频率会导致约0.4-0.5秒的延迟,影响任务成功率 [11] - **续航、稳定性、成本**是三条技术路线在量产前夜面临的残酷考验 [1][5] 应用场景与商业化路径 - **场景优先级**:工厂场景相对简单固定,商超场景复杂度高需识别数十万种商品,家庭场景是终极挑战但目前投入产出比不经济,商业场景(如零售仓拣货)正成为突破口,可提升运营效率30%-90% [13] - **市场需求**:用户诉求集中在降低生产成本、将人类从重复高危工作中解放、在文商旅领域提供情绪价值,希望选取具体场景实现高度闭环 [12] - **商业模式**:面向B端客户,与本体厂商、场景方开展联合共创,核心价值在于无需改造现有基础设施,能与人在同一环境中共存作业(如工厂白天人工作业,晚上机器人接手) [16] - **未来3至5年**是具体场景机器人落地的关键期,机器人价值在于补充劳动力,学习模仿老师傅的经验,即便当前效率仅为人类一半,但可在夜间、节假日工作 [12] 行业发展趋势 - **技术路线将逐渐收敛**:智能机器人硬件架构将逐渐统一化,软件架构可能形成“语义解析层-环境建图层-运动执行层”的三层解耦架构 [17] - **软硬件深度协同**成为优先方向,核心部件必须与算法深度适配,单纯进行部件组装的企业或将被淘汰 [17] - **数据闭环能力成为核心壁垒**:2026年各企业硬件差距将迅速收窄,真正的核心壁垒将是机器人在长时间作业中积累的非标环境作业数据 [17] - **国产化趋势**:2026年国产行星滚柱丝杠、高功率密度伺服电机逐步实现量产替代,结合国产零部件进行自研改造、集成优化成为趋势 [18] - **技术迭代速度**:机器人技术正以“月”为单位快速迭代,学界与产业界界限日益模糊 [17] 企业成功关键要素 - 企业必须深耕具体应用场景,技术、硬件、软件都必须和场景结合 [3] - 技术的先进性本身不能直接导致商业成功,最终必须回归商业本质,形成可交易的产品并产生销售额 [4] - 机器人“落地”考验技术与商业场景的百分之百适配,解决90%问题但剩下10%解决不了,整个场景就无法使用 [18] - 需综合考虑技术先进性是否匹配场景需求、稳定性与可靠性、外观设计与用户体验,以及整体解决方案能否在客户可接受的投入产出比范围内形成闭环 [18]
2025商用具身智能白皮书
艾瑞咨询· 2026-02-09 08:03
核心观点 - 具身智能是人工智能的重要发展方向和实现通用人工智能的关键路径,正从实验室走向产业化,万亿级市场脉络已打开 [1][2] - 中美两国在具身智能领域展开关键战略竞争,中国凭借政策支持、场景驱动和产业链协同加速追赶,美国则拥有算力、顶尖模型和资本生态的先发优势 [1][6][11] - 行业当前处于大规模商业化的前夜,面临数据、技术、成本和商业模式等多重瓶颈,但正通过技术演进、数据突破和商业模式创新逐步解决,预计未来5-10年将进入爆发期 [13][37][46] 行业定义与战略意义 - **定义**:具身智能是智能体依托物理身体,通过感知-理解-决策-行动的闭环与环境强交互并持续学习,展现出自主性、泛化性和适应性,是AI走向落地化和实用化的重要标志 [2] - **战略意义**:是推动科技产业链升级和培育新兴产业的重要力量,将带动芯片、传感器、AI大模型、能源等产业链协同创新,并促进制造、交通、零售、医疗等场景转型升级 [6] - **中美竞争**:具身智能是中美科技竞争的关键战役,关乎长期经济效益、科技自立自强与国家竞争力提升,是中国实现“弯道超车”的关键赛点 [6] 商用场景分类 - **商用具身智能**:服务于零售、餐饮、医疗、安防等复杂动态环境,更依赖多模态感知、人机交互和泛化能力,旨在提升服务体验与灵活运营 [4] - **工业具身智能**:面向制造、能源、矿山等高度结构化场景,强调高精度、高负载和长周期稳定性,目标是提升效率与保障安全 [4] 政策与市场环境 - **中国政策激励**:近两年来,中国将具身智能纳入国家战略,中央层面密集出台行动方案、发展指导意见与资金支持,地方政府也发布专项规划、设立基金并建立产业联盟,推动行业加速发展 [8][9] - **资本市场火热**:全球资本市场高度关注,中美企业融资额与频率齐升,A轮融资额1-3亿美元已是常态,例如Figure在2025年9月C轮融资超10亿美元,估值达390亿美元 [43][44] - **全球市场规模预测**:根据顶尖机构预测,2025年全球具身智能规模达192亿元人民币,未来五年复合增长率达73%,预计十年左右达到年万亿级市场需求,机器人单价有望从百万级降至20多万人民币 [46] - **中国市场规模预测**:凭借完善的工业体系和供应链,中国预计五年左右进入快速降本通道,市场规模将从2025年的21亿元增长至2035年的超过2800亿元,实现十年百余倍增长 [49][50] 技术发展现状与瓶颈 - **发展阶段**:全球发展经历了从哲学思辨(1950年起)、技术积累(2000-2020年)到大模型驱动与应用拓展(2020年以来)三个阶段,目前进入快速演进新拐点 [11] - **核心瓶颈**: - **数据挑战**:高质量实操数据稀缺,仿真数据存在缺陷,且缺乏数据评价机制,数据获取主要依赖遥操作、仿真合成、动作捕捉及互联网视频图像 [13][15][16] - **技术瓶颈**:灵巧手、泛化能力与Sim2Real(从仿真到现实)迁移等技术尚未成熟 [13] - **成本瓶颈**:核心部件与算力投入居高不下 [13] - **商业瓶颈**:投资回报周期长,伦理安全问题待解 [13] - **数据突破**:业界正通过“世界模型”、建设数据采集训练场(如2025年起在北京、上海等地建设)、以及工具创新等方式探索解决方案,数据获取的多元路径正在形成 [19] 模型与技术演进 - **模型演进共识**:视觉-语言-动作模型正成为发展共识,其通过多模态统一框架,将大语言模型的推理能力与真实世界的感知、行动能力深度融合,催生“机器人大脑” [21] - **演进路径**:从2022年Google SayCan的初步验证,到2023年PaLM-E的能力跃迁,再到2024-2025年OpenVLA等开源模型推动生态开放,技术核心能力向多模态统一感知和跨场景任务泛化发展 [21][22] - **架构趋势**:单一模型无法满足复杂现实场景,混合分层架构(“大脑”与“小脑”协同)成为必然趋势,即高层大模型负责认知规划,底层成熟算法保证可靠执行 [23] - **自主化程度**:类比自动驾驶,目前处于L2(辅助自主)向L3(有条件自主)的过渡阶段;类比大语言模型,则已达到GPT-2水平,未来2-3年或达到能力质变临界点 [27] 核心部件与产业链 - **灵巧手**:是实现人机交互与精细操作的核心部件,面临结构紧凑性、敏捷性与可靠性的“三难困境”,是技术、工艺难度最大的环节之一 [25] - **产业链图谱**:产业链复杂度高,涵盖执行器、传感、计算、机身、电池、基础模型等漫长链条,可通过硬件、大脑和集成商三个维度划分,中国企业在产业环节覆盖度和下游整机集成上已占优势 [41] - **关键部件案例**:因时机器人作为微型伺服电缸领导者,通过垂直整合自研核心部件,赋能工业制造、人形机器人和科研等核心场景 [83][85][88] 商业化进展与趋势 - **商业化突破点**:大规模商业化需在续航、延迟、执行、可靠性与经济效益五大维度均跨过可用门槛,形成正向价值飞轮 [29] - **渗透顺序**:商业化沿价值阶梯演进,初期集中在高投资回报率、低复杂度的确定性场景(如工业制造、仓储自动化、餐饮零售基础场景),未来向高复杂度、高价值的战略性场景渗透 [31][34] - **付费模式演进**:从当前的一次性整机销售为主,可能逐步演进为“机器人即服务”模式,最终发展至“按任务完成效果付费” [35] - **中国出海加速**:2024-2025年进入出海加速期,商业服务与工业机器人出口显著增长,形成全球第二大出口市场,代表企业正从“单点出货”迈向“体系化落地” [53][54] 竞争格局与玩家分析 - **三类核心玩家**: - **通用技术挑战者**:如Figure,凭借顶尖AI技术、创业精神和资本加持,旨在抢占技术制高点 [55] - **场景资源先行者**:如ABB、擎朗智能,依托深厚的硬件工程能力与扎实的客户根基,从专用场景向泛化智能应用升级 [55][66] - **跨界需求巨头**:如特斯拉、亚马逊,从自身海量真实需求出发,推动产业商业化加速 [55] - **整合趋势**:产品同质化已现,高昂的研发投入、复杂的供应链管理等挑战将导致行业在未来三年内不可避免的整合与洗牌,最终形成少数玩家的市场格局 [57] - **初创企业策略**:面对巨头竞争,需比巨头看得更准、行动更快、人效更高,并找到能带来长期赋能的战略伙伴和投资人 [59][60] 代表企业案例 - **Figure AI**:美国代表性企业,估值390亿美元,致力于打造通用自主人形机器人,其产品快速迭代并引入自研Helix通用VLA模型,旨在实现跨场景泛化能力 [64][65] - **擎朗智能**:中国代表企业,实现人形与轮式机器人双线布局,构建完整的产品生态矩阵,在全球服务实践中积累了丰富的场景数据和技术壁垒,并在智慧酒店等场景实现商业化落地 [66][71][73] - **节卡机器人**:拥有多元产品生态,在汽车、电子等工业场景大规模部署,依托存量设备网络构建了独特的数据优势和分层混合架构,推动技术快速落地 [77][79][81] - **特斯拉Optimus**:从概念到快速迭代,Gen 2展示了更轻、更快、更灵巧的动作能力,马斯克预测最早2025年底对外销售,2026年批量生产,长期目标百万级年产量 [62]
2025商用具身智能白皮书
艾瑞咨询· 2026-01-26 08:07
行业概述与市场前景 - 具身智能是人工智能的重要发展方向,被普遍认为是实现人工通用智能的重要路径,其核心在于智能体依托物理身体,通过感知—理解—决策—行动的闭环与环境交互并持续学习 [2] - 行业正处于大规模商业化的前夜,全球市场预计将从2025年的192亿元人民币,以未来五年73%的复合增长率快速扩张,并在十年左右达到年万亿级市场需求 [46] - 中国市场增长潜力巨大,凭借完善的工业体系和供应链,预计将在五年左右进入快速降本通道,市场规模将从2025年的21亿元人民币增长至2035年的超过2,800亿元人民币,实现十年百余倍增长 [49][50] - 行业已彻底火热,国外公司Figure AI在营收为零的情况下估值已达390亿美元,国内头部厂家如宇树科技宣称2025年营收将突破10亿元人民币 [1] 技术发展与核心瓶颈 - 模型演进以视觉语言动作模型为核心主线,通过多模态统一框架将大型语言模型的推理能力与真实世界的感知、行动能力深度融合,正逼近类似GPT-3智能爆发的临界点 [21] - VLA模型正持续迭代,从谷歌的RT-1、RT-2到英伟达开源的Isaac GROOT,技术演进方向包括融合更多模态信息以及提升动作生成的泛化能力 [22] - 面对复杂现实场景,混合模型架构是必然趋势,行业共识是通过高层大模型进行认知与规划,同时结合底层成熟算法实现可靠执行,形成“大脑”与“小脑”协同的模式 [23] - 当前发展面临四大瓶颈制约:高质量多模态实操数据稀缺、灵巧手与泛化等技术未成熟、核心部件与算力成本高昂、以及商业回报周期长与伦理安全问题 [13] - 数据是行业发展的关键瓶颈,获取方式依赖遥操作、仿真合成等,但高质量数据依然稀缺,业界正通过建设数据采集训练场等方式探索解决方案 [15][16][19] 商业化路径与趋势 - 商业化正沿着价值阶梯演进,初期将集中在高投资回报率、低复杂度的“确定性”场景,如工业制造、仓储自动化和餐饮零售的基础服务 [31] - 随着技术成熟,应用将向高复杂度、高价值的“战略性”场景渗透,最终实现通用化服务 [31] - 当前主要的商业模式是一次性整机销售,未来可能演进为降低客户前期投入的“机器人即服务”模式,并最终发展至“按任务完成效果付费” [35] - 类比自动驾驶,具身智能的自主程度目前处于L2(自主移动)向L3(低技能操作)的过渡阶段;类比大语言模型,则已达到GPT-2的水平 [27] - 大规模商业化的拐点需要在续航、延迟、执行、可靠性与经济效益五大维度均跨过可用门槛,当前行业正处于从技术验证到价值闭环的关键攻坚期 [29] 竞争格局与玩家分析 - 全球竞争显现出三股核心力量:以Figure为代表的AI原生技术挑战者、以ABB和擎朗智能为代表的场景资源先行者、以及以特斯拉和亚马逊为代表的自带需求的跨界巨头 [55] - 中国已拥有机器人领域最完备、成本最有优势的工业体系和供应链,以及最大的应用市场,国内企业在产业环节覆盖度上已占据显著优势,并在下游整机集成和应用场景上展现出巨大潜力 [39][41] - 行业中期整合趋势不可避免,产品同质化已初现,高昂的研发投入、复杂的供应链管理等挑战意味着最终竞争格局将是少数玩家的市场 [57] - 初创企业需面对传统制造业巨头和互联网巨头的夹击,应凭借灵活创新、快速行动和高效人效寻找生存之道,并找到能带来长期赋能的战略伙伴 [59][60] 政策与资本环境 - 中国已将具身智能纳入国家战略,中央层面密集出台行动方案、发展指导意见与资金支持,地方政府也发布专项规划、设立基金并建立产业联盟以推动发展 [8][9] - 全球资本市场对具身智能投资火热,融资频率与金额齐升,A轮融资额1-3亿美元已是常态,2025年9月Figure AI完成超10亿美元的C轮融资,估值近400亿美元 [43][44] - 中国具身智能企业融资活跃,2025年上半年近亿美元融资达4笔以上,例如宇树科技C轮融资7亿元人民币 [44] 典型企业案例分析 - **Figure AI**:全球通用人形机器人代表企业,估值390亿美元,其产品快速迭代,并引入了自研的通用VLA模型Helix,旨在实现跨场景的复杂任务执行能力 [64][65] - **擎朗智能**:构建了从轮式服务机器人到人形机器人的全产品矩阵,依托全栈自研和全球场景数据积累,在服务场景的综合技术力上领先,并已实现“通用+专用”机器人在智慧酒店等场景的落地 [66][71][73] - **节卡机器人**:拥有丰富的工业机器人产品生态和垂直行业经验,通过庞大的存量设备网络构建了独特的数据优势,并采用分层混合架构推动技术在真实工业场景快速落地 [77][79][81] - **因时机器人**:作为微型伺服电缸的领导者,通过垂直整合自研核心部件,突破了灵巧手在结构、控制和成本上的“不可能三角”,为具身智能提供关键的执行器技术支持 [83][85][88] 全球化与出海 - 2024-2025年,中国具身智能产业进入出海加速期,工业机器人出口额在2024年达到11.3亿美元,同比增长43.22%,市场份额跃居全球第二 [53][54] - 中国厂商在全球商用服务机器人市场出货量占比已达84.7% [54] - 企业出海路径呈现多元化,例如宇树科技以高扭矩关节电机与运动控制算法等技术驱动出海,而擎朗智能则通过产品本地化创新和建立密集的服务网络打开日本等高标准市场 [53][54]