Workflow
VLA模型
icon
搜索文档
2025商用具身智能白皮书
艾瑞咨询· 2026-02-09 08:03
核心观点 - 具身智能是人工智能的重要发展方向和实现通用人工智能的关键路径,正从实验室走向产业化,万亿级市场脉络已打开 [1][2] - 中美两国在具身智能领域展开关键战略竞争,中国凭借政策支持、场景驱动和产业链协同加速追赶,美国则拥有算力、顶尖模型和资本生态的先发优势 [1][6][11] - 行业当前处于大规模商业化的前夜,面临数据、技术、成本和商业模式等多重瓶颈,但正通过技术演进、数据突破和商业模式创新逐步解决,预计未来5-10年将进入爆发期 [13][37][46] 行业定义与战略意义 - **定义**:具身智能是智能体依托物理身体,通过感知-理解-决策-行动的闭环与环境强交互并持续学习,展现出自主性、泛化性和适应性,是AI走向落地化和实用化的重要标志 [2] - **战略意义**:是推动科技产业链升级和培育新兴产业的重要力量,将带动芯片、传感器、AI大模型、能源等产业链协同创新,并促进制造、交通、零售、医疗等场景转型升级 [6] - **中美竞争**:具身智能是中美科技竞争的关键战役,关乎长期经济效益、科技自立自强与国家竞争力提升,是中国实现“弯道超车”的关键赛点 [6] 商用场景分类 - **商用具身智能**:服务于零售、餐饮、医疗、安防等复杂动态环境,更依赖多模态感知、人机交互和泛化能力,旨在提升服务体验与灵活运营 [4] - **工业具身智能**:面向制造、能源、矿山等高度结构化场景,强调高精度、高负载和长周期稳定性,目标是提升效率与保障安全 [4] 政策与市场环境 - **中国政策激励**:近两年来,中国将具身智能纳入国家战略,中央层面密集出台行动方案、发展指导意见与资金支持,地方政府也发布专项规划、设立基金并建立产业联盟,推动行业加速发展 [8][9] - **资本市场火热**:全球资本市场高度关注,中美企业融资额与频率齐升,A轮融资额1-3亿美元已是常态,例如Figure在2025年9月C轮融资超10亿美元,估值达390亿美元 [43][44] - **全球市场规模预测**:根据顶尖机构预测,2025年全球具身智能规模达192亿元人民币,未来五年复合增长率达73%,预计十年左右达到年万亿级市场需求,机器人单价有望从百万级降至20多万人民币 [46] - **中国市场规模预测**:凭借完善的工业体系和供应链,中国预计五年左右进入快速降本通道,市场规模将从2025年的21亿元增长至2035年的超过2800亿元,实现十年百余倍增长 [49][50] 技术发展现状与瓶颈 - **发展阶段**:全球发展经历了从哲学思辨(1950年起)、技术积累(2000-2020年)到大模型驱动与应用拓展(2020年以来)三个阶段,目前进入快速演进新拐点 [11] - **核心瓶颈**: - **数据挑战**:高质量实操数据稀缺,仿真数据存在缺陷,且缺乏数据评价机制,数据获取主要依赖遥操作、仿真合成、动作捕捉及互联网视频图像 [13][15][16] - **技术瓶颈**:灵巧手、泛化能力与Sim2Real(从仿真到现实)迁移等技术尚未成熟 [13] - **成本瓶颈**:核心部件与算力投入居高不下 [13] - **商业瓶颈**:投资回报周期长,伦理安全问题待解 [13] - **数据突破**:业界正通过“世界模型”、建设数据采集训练场(如2025年起在北京、上海等地建设)、以及工具创新等方式探索解决方案,数据获取的多元路径正在形成 [19] 模型与技术演进 - **模型演进共识**:视觉-语言-动作模型正成为发展共识,其通过多模态统一框架,将大语言模型的推理能力与真实世界的感知、行动能力深度融合,催生“机器人大脑” [21] - **演进路径**:从2022年Google SayCan的初步验证,到2023年PaLM-E的能力跃迁,再到2024-2025年OpenVLA等开源模型推动生态开放,技术核心能力向多模态统一感知和跨场景任务泛化发展 [21][22] - **架构趋势**:单一模型无法满足复杂现实场景,混合分层架构(“大脑”与“小脑”协同)成为必然趋势,即高层大模型负责认知规划,底层成熟算法保证可靠执行 [23] - **自主化程度**:类比自动驾驶,目前处于L2(辅助自主)向L3(有条件自主)的过渡阶段;类比大语言模型,则已达到GPT-2水平,未来2-3年或达到能力质变临界点 [27] 核心部件与产业链 - **灵巧手**:是实现人机交互与精细操作的核心部件,面临结构紧凑性、敏捷性与可靠性的“三难困境”,是技术、工艺难度最大的环节之一 [25] - **产业链图谱**:产业链复杂度高,涵盖执行器、传感、计算、机身、电池、基础模型等漫长链条,可通过硬件、大脑和集成商三个维度划分,中国企业在产业环节覆盖度和下游整机集成上已占优势 [41] - **关键部件案例**:因时机器人作为微型伺服电缸领导者,通过垂直整合自研核心部件,赋能工业制造、人形机器人和科研等核心场景 [83][85][88] 商业化进展与趋势 - **商业化突破点**:大规模商业化需在续航、延迟、执行、可靠性与经济效益五大维度均跨过可用门槛,形成正向价值飞轮 [29] - **渗透顺序**:商业化沿价值阶梯演进,初期集中在高投资回报率、低复杂度的确定性场景(如工业制造、仓储自动化、餐饮零售基础场景),未来向高复杂度、高价值的战略性场景渗透 [31][34] - **付费模式演进**:从当前的一次性整机销售为主,可能逐步演进为“机器人即服务”模式,最终发展至“按任务完成效果付费” [35] - **中国出海加速**:2024-2025年进入出海加速期,商业服务与工业机器人出口显著增长,形成全球第二大出口市场,代表企业正从“单点出货”迈向“体系化落地” [53][54] 竞争格局与玩家分析 - **三类核心玩家**: - **通用技术挑战者**:如Figure,凭借顶尖AI技术、创业精神和资本加持,旨在抢占技术制高点 [55] - **场景资源先行者**:如ABB、擎朗智能,依托深厚的硬件工程能力与扎实的客户根基,从专用场景向泛化智能应用升级 [55][66] - **跨界需求巨头**:如特斯拉、亚马逊,从自身海量真实需求出发,推动产业商业化加速 [55] - **整合趋势**:产品同质化已现,高昂的研发投入、复杂的供应链管理等挑战将导致行业在未来三年内不可避免的整合与洗牌,最终形成少数玩家的市场格局 [57] - **初创企业策略**:面对巨头竞争,需比巨头看得更准、行动更快、人效更高,并找到能带来长期赋能的战略伙伴和投资人 [59][60] 代表企业案例 - **Figure AI**:美国代表性企业,估值390亿美元,致力于打造通用自主人形机器人,其产品快速迭代并引入自研Helix通用VLA模型,旨在实现跨场景泛化能力 [64][65] - **擎朗智能**:中国代表企业,实现人形与轮式机器人双线布局,构建完整的产品生态矩阵,在全球服务实践中积累了丰富的场景数据和技术壁垒,并在智慧酒店等场景实现商业化落地 [66][71][73] - **节卡机器人**:拥有多元产品生态,在汽车、电子等工业场景大规模部署,依托存量设备网络构建了独特的数据优势和分层混合架构,推动技术快速落地 [77][79][81] - **特斯拉Optimus**:从概念到快速迭代,Gen 2展示了更轻、更快、更灵巧的动作能力,马斯克预测最早2025年底对外销售,2026年批量生产,长期目标百万级年产量 [62]
2025商用具身智能白皮书
艾瑞咨询· 2026-01-26 08:07
行业概述与市场前景 - 具身智能是人工智能的重要发展方向,被普遍认为是实现人工通用智能的重要路径,其核心在于智能体依托物理身体,通过感知—理解—决策—行动的闭环与环境交互并持续学习 [2] - 行业正处于大规模商业化的前夜,全球市场预计将从2025年的192亿元人民币,以未来五年73%的复合增长率快速扩张,并在十年左右达到年万亿级市场需求 [46] - 中国市场增长潜力巨大,凭借完善的工业体系和供应链,预计将在五年左右进入快速降本通道,市场规模将从2025年的21亿元人民币增长至2035年的超过2,800亿元人民币,实现十年百余倍增长 [49][50] - 行业已彻底火热,国外公司Figure AI在营收为零的情况下估值已达390亿美元,国内头部厂家如宇树科技宣称2025年营收将突破10亿元人民币 [1] 技术发展与核心瓶颈 - 模型演进以视觉语言动作模型为核心主线,通过多模态统一框架将大型语言模型的推理能力与真实世界的感知、行动能力深度融合,正逼近类似GPT-3智能爆发的临界点 [21] - VLA模型正持续迭代,从谷歌的RT-1、RT-2到英伟达开源的Isaac GROOT,技术演进方向包括融合更多模态信息以及提升动作生成的泛化能力 [22] - 面对复杂现实场景,混合模型架构是必然趋势,行业共识是通过高层大模型进行认知与规划,同时结合底层成熟算法实现可靠执行,形成“大脑”与“小脑”协同的模式 [23] - 当前发展面临四大瓶颈制约:高质量多模态实操数据稀缺、灵巧手与泛化等技术未成熟、核心部件与算力成本高昂、以及商业回报周期长与伦理安全问题 [13] - 数据是行业发展的关键瓶颈,获取方式依赖遥操作、仿真合成等,但高质量数据依然稀缺,业界正通过建设数据采集训练场等方式探索解决方案 [15][16][19] 商业化路径与趋势 - 商业化正沿着价值阶梯演进,初期将集中在高投资回报率、低复杂度的“确定性”场景,如工业制造、仓储自动化和餐饮零售的基础服务 [31] - 随着技术成熟,应用将向高复杂度、高价值的“战略性”场景渗透,最终实现通用化服务 [31] - 当前主要的商业模式是一次性整机销售,未来可能演进为降低客户前期投入的“机器人即服务”模式,并最终发展至“按任务完成效果付费” [35] - 类比自动驾驶,具身智能的自主程度目前处于L2(自主移动)向L3(低技能操作)的过渡阶段;类比大语言模型,则已达到GPT-2的水平 [27] - 大规模商业化的拐点需要在续航、延迟、执行、可靠性与经济效益五大维度均跨过可用门槛,当前行业正处于从技术验证到价值闭环的关键攻坚期 [29] 竞争格局与玩家分析 - 全球竞争显现出三股核心力量:以Figure为代表的AI原生技术挑战者、以ABB和擎朗智能为代表的场景资源先行者、以及以特斯拉和亚马逊为代表的自带需求的跨界巨头 [55] - 中国已拥有机器人领域最完备、成本最有优势的工业体系和供应链,以及最大的应用市场,国内企业在产业环节覆盖度上已占据显著优势,并在下游整机集成和应用场景上展现出巨大潜力 [39][41] - 行业中期整合趋势不可避免,产品同质化已初现,高昂的研发投入、复杂的供应链管理等挑战意味着最终竞争格局将是少数玩家的市场 [57] - 初创企业需面对传统制造业巨头和互联网巨头的夹击,应凭借灵活创新、快速行动和高效人效寻找生存之道,并找到能带来长期赋能的战略伙伴 [59][60] 政策与资本环境 - 中国已将具身智能纳入国家战略,中央层面密集出台行动方案、发展指导意见与资金支持,地方政府也发布专项规划、设立基金并建立产业联盟以推动发展 [8][9] - 全球资本市场对具身智能投资火热,融资频率与金额齐升,A轮融资额1-3亿美元已是常态,2025年9月Figure AI完成超10亿美元的C轮融资,估值近400亿美元 [43][44] - 中国具身智能企业融资活跃,2025年上半年近亿美元融资达4笔以上,例如宇树科技C轮融资7亿元人民币 [44] 典型企业案例分析 - **Figure AI**:全球通用人形机器人代表企业,估值390亿美元,其产品快速迭代,并引入了自研的通用VLA模型Helix,旨在实现跨场景的复杂任务执行能力 [64][65] - **擎朗智能**:构建了从轮式服务机器人到人形机器人的全产品矩阵,依托全栈自研和全球场景数据积累,在服务场景的综合技术力上领先,并已实现“通用+专用”机器人在智慧酒店等场景的落地 [66][71][73] - **节卡机器人**:拥有丰富的工业机器人产品生态和垂直行业经验,通过庞大的存量设备网络构建了独特的数据优势,并采用分层混合架构推动技术在真实工业场景快速落地 [77][79][81] - **因时机器人**:作为微型伺服电缸的领导者,通过垂直整合自研核心部件,突破了灵巧手在结构、控制和成本上的“不可能三角”,为具身智能提供关键的执行器技术支持 [83][85][88] 全球化与出海 - 2024-2025年,中国具身智能产业进入出海加速期,工业机器人出口额在2024年达到11.3亿美元,同比增长43.22%,市场份额跃居全球第二 [53][54] - 中国厂商在全球商用服务机器人市场出货量占比已达84.7% [54] - 企业出海路径呈现多元化,例如宇树科技以高扭矩关节电机与运动控制算法等技术驱动出海,而擎朗智能则通过产品本地化创新和建立密集的服务网络打开日本等高标准市场 [53][54]
2026,物理AI的六大趋势:新物种大爆发,淘汰赛开启
钛媒体APP· 2026-01-20 15:36
文章核心观点 - 人工智能的下一个浪潮是物理AI,其价值将从虚拟内容生成迈向在物理世界中自主完成复杂任务,2026年AI将更大程度地参与真实世界交互 [1] 自动驾驶出租车 (Robotaxi) - 2026年将成为Robotaxi从区域试点迈向规模化商业落地的关键一年,核心硬件成本降低、算法算力提升以及全球主要市场对高级别自动驾驶的政策支持是主要驱动力 [3] - 特斯拉计划于2026年4月量产其L4级全自动驾驶出租车Cybercab,目标年产能200万辆,并计划投入Robotaxi车队运营,目标运营成本约为每公里0.2美元 [3] - 百度旗下的萝卜快跑是国内成熟Robotaxi平台,周订单量突破25万单且100%为全无人订单,全球总订单量超过1700万单,其安全记录为平均每行驶1014万公里出现一次安全气囊弹出事故 [3] - 萝卜快跑的商业化正从单一城市试点走向全球市场,2026年初已在迪拜获得首个且唯一的全无人测试许可,并计划在当地将车队规模扩充至1000辆以上 [4] 人形机器人 - 2025年全球机器人出货量前三名分别为智元(5168台)、宇树科技(4200台)和优必选(1000台) [7] - 2026年,随着VLA模型成熟,人形机器人表演能力将加强,推动租赁市场繁荣及整体出货量提升,头部公司年出货量有望实现同比翻番甚至更高 [7] - 2026年二级市场将迎来机器人公司上市潮,宇树科技、乐聚机器人、银河通用等有明确IPO动作,同时缺乏闭环进化能力或停留在demo阶段的企业将面临融资困难并被市场淘汰 [7] AI智能体 (AI Agent) - 2026年,AI Agent将从“问答机器人”升级为“个人智能伙伴”,深度介入真实世界,用户只需表达意图即可由AI Agent完成点餐、打车、订票等复杂任务,操作系统角色从应用调度平台升级为任务编排引擎 [10] - AI Agent自由穿透各个App将导致终端厂商与希望构建闭环生态的应用厂商(如阿里巴巴试图通过千问AI Agent串联高德、淘宝、飞猪等应用)产生利益冲突,双方在用户数据权限上的博弈将加剧 [10] 可穿戴设备 - 2026年可穿戴设备领域将涌现形态新颖、功能专注的“新物种”,通过深度AI融合与无感化佩戴体验切入健康、交互、陪伴等特定场景 [13] - 光帆科技推出首款具备视觉感知能力的主动式AI耳机,集成摄像头以实现环境感知并自主处理日程管理、机酒预定等高频任务 [13] - 新设备追求科技“隐形”,例如智能戒指通过ECG功能进行心律异常筛查或监测睡眠呼吸暂停,情绪吊坠通过毫米波雷达等传感器非接触式感知情绪变化 [13] AI玩具 - AI多模态交互技术(结合视觉3D空间建模和触觉柔性电子皮肤)使AI玩具能理解用户行为意图,低功耗端侧AI芯片使其具备本地长时记忆与上下文理解能力,无需依赖云端 [15] - 情感计算技术深化使AI玩具能通过语调、表情、动作多维度分析情绪,实现拟人化反应并形成独特“性格养成”体系 [15] - 2026年中国厂商在AI玩具市场的创新贡献度预计首次突破60%,行业将进入“洗牌期”,缺乏IP、数据和全链路能力的厂商将批量退场 [15] 清洁电器 - 2026年清洁电器行业最核心的趋势是“具身化”,产品从执行简单指令的自动化工具向能感知、理解并主动适应环境转变 [17] - 轮足式结构模仿人类步态,使机器人能爬楼梯、跨越门槛,突破家庭环境中的立体空间障碍;仿生机械臂的引入则赋予机器人拾取、整理地面杂物甚至擦拭桌面的能力 [17] - 清洁电器服务场景将从室内扩展到户外,例如割草机器人实现庭院自动修剪,机械臂使其能捡拾杂物;泳池清洁机器人借助仿生机械臂抓取角落杂物 [18] - 中国品牌主导此轮技术变革,国内清洁电器市场头部五家厂商份额合计达89.2%;2025年前三季度,中国品牌包揽全球扫地机器人出货量前五,合计占据65.7%的市场份额 [18]
2025商用具身智能白皮书
艾瑞咨询· 2026-01-19 08:06
核心观点 - 具身智能是人工智能的重要发展方向,被认为是实现通用人工智能的关键路径,其核心在于智能体通过物理身体与环境进行感知-理解-决策-行动的闭环交互 [1][2] - 行业正处于从实验室走向产业化、大规模商业化的前夜,中美两国在技术、资本和应用上展开激烈角逐,市场预计将迎来指数级增长 [1][11][46] - 商业化落地面临数据、技术、成本等多重瓶颈,但正通过世界模型、数据采集场、混合架构等方式寻求突破,并沿着从高ROI、低复杂度场景向高价值、高复杂度场景渗透的路径演进 [13][19][31] 定义与理解 - 具身智能是机器学习、计算机视觉与机器人技术的综合体现,智能体依托物理身体,通过与环境强交互并持续学习,展现出自主性、泛化性和适应性,是AI走向落地化和实用化的重要标志 [2] 商用场景分类 - **商用具身智能**:服务于零售、餐饮、医疗、安防等复杂动态环境,更依赖多模态感知、人机交互和泛化能力,旨在提升服务体验与灵活运营 [4] - **工业具身智能**:面向制造、能源、矿山等高度结构化场景,强调高精度、高负载和长周期稳定性,目标是提升效率与保障安全 [4] - 两者能力要求与技能瓶颈差异较大,但共同推动具身智能在不同维度的落地发展 [4] 战略与政策 - 具身智能是推动科技产业链升级和培育新兴产业的重要力量,有助于先进芯片、传感器、AI大模型等产业链环节的协同创新,并带动制造、交通、零售等场景转型升级 [6] - 具身智能是中美科技竞争的关键战役,关乎中国科技自立自强与国家竞争力的提升,是未来十年“弯道超车”的关键赛点 [6] - 中国已将具身智能纳入国家战略,中央层面密集出台行动方案、发展指导意见与资金支持,地方政府也发布专项规划、设立基金并建立产业联盟,推动行业加速发展 [8][9] 发展阶段与全球格局 - 发展历程分为三阶段:1950年起的哲学思辨与概念萌芽、2000–2020年的技术积累期、2020年以来大模型驱动与应用拓展期 [11] - 全球进入快速演进新拐点,美国凭借算力基础、顶尖模型与资本生态实现先发优势;中国则依托政策支持、场景驱动与产业链协同加速追赶 [11] - 未来五年,中美将在基础模型、算力和应用落地上展开比拼 [11] 发展瓶颈与突破 - **数据瓶颈**:高质量多模态实操数据稀缺,仿真数据存在缺陷,且缺乏数据评价机制,数据获取主要依赖遥操作、仿真合成、动作捕捉及互联网视频图像 [13][15][16] - **技术瓶颈**:灵巧手、泛化能力与Sim2Real(从仿真到现实)迁移等技术尚未成熟 [13] - **成本瓶颈**:核心部件与算力投入居高不下 [13] - **商业瓶颈**:投资回报周期长,伦理安全问题仍待解决 [13] - **突破路径**:业界正通过构建“世界模型”、建设数据采集训练场(如2025年起北京、上海加快建设)、开发便携化工具和优化仿真等方式探索解决方案,以降低成本并获取高质量数据 [19] 模型技术演进 - **核心主线**:通过多模态统一框架,将大型语言模型的推理能力与真实世界的感知、行动能力深度融合,催生能跨场景自主学习的“机器人大脑” [21] - **VLA模型成为共识**:视觉-语言-动作模型持续迭代,正逼近类似GPT-3的智能爆发临界点,其演进方向包括融合更多模态信息(视觉、语言、力觉等)以及生成适配不同机器人的泛化动作指令 [21][22] - **关键里程碑**:2022年Google RT-1和Saycan初步验证范式;2023年Google RT-2和PaLM-E实现能力跃迁,正式提出VLA概念;2024-2025年进入生态开放阶段,如Google开源OpenVLA,英伟达推出开源基础模型Isaac GROOT及配套平台 [22] - **架构融合趋势**:单一模型无法满足复杂现实场景,混合模型架构成为必然,即通过高层大模型(大脑)进行认知与规划,结合底层成熟算法(小脑)实现可靠执行,兼顾泛化性与可靠性 [23] 核心部件与自主化程度 - **灵巧手**:是实现人机交互与精细操作的核心部件,面临小型化设计、敏捷控制和成本可靠性的“三难困境”,是技术工艺难度最大的环节之一 [25] - **自主化程度**:类比自动驾驶,目前处于L2(初步自主移动)向L3(低技能操作探索)的过渡阶段;类比大语言模型,则已达到GPT-2水平,验证了规模定律的可行性,未来2-3年或达到能力质变的关键临界点 [27] 商业化路径与趋势 - **商业化突破点**:大规模应用拐点需在续航、延迟、执行、可靠性与经济效益五大维度均跨过可用门槛,并形成正向增强的价值飞轮 [29] - **渗透路径**:商业化正沿价值阶梯演进,初期集中在高投资回报率、低复杂度的确定性场景(如工业制造、仓储自动化、餐饮零售基础场景),随后向高复杂度、高价值的战略性场景渗透,最终实现通用化服务 [31][34] - **付费模式演进**:从当前的一次性整机销售为主,辅以软件服务,未来可能向降低客户前期投入的“机器人即服务”模式演进,并最终发展至与客户业务价值深度绑定的“按任务完成效果付费” [35] 市场规模预测 - **全球市场**:2025年全球具身智能规模预计达192亿元人民币,未来五年复合增长率达73%,预计十年左右达到年万亿级市场需求,关键变量是机器人售价从目前的百万级人民币在十年左右降至20多万元 [46] - **中国市场**:需求已初步显现,凭借完善的工业体系和供应链,预计五年左右进入快速降本通道,5-10年率先触及经济性拐点,保守估计市场规模将从2025年的21亿元人民币增长至2035年的超过2800亿元人民币,实现十年百余倍增长 [49][50] 产业链与竞争格局 - **产业链复杂度**:不亚于汽车制造业,涵盖执行器、传感、计算、机身、电池、基础模型等漫长链条,中国企业在产业环节覆盖度上已占显著优势,并在下游整机集成和应用场景上展现巨大潜力 [41] - **三路核心玩家**:1)以Figure为代表的AI原生技术挑战者;2)以ABB、擎朗为代表的传统工业/商业机器人头部玩家;3)以特斯拉、亚马逊为代表的跨界需求巨头 [55] - **中期整合趋势**:产品同质化已现,高昂的研发投入、复杂的供应链管理等挑战将导致行业在未来三年面临第一轮洗牌,最终格局将是少数玩家的市场 [57] - **初创企业策略**:需比巨头看得更准、行动更快、人效更高,并找到能带来长期赋能价值的战略伙伴和投资人,以应对资源紧张和巨头夹击的挑战 [59][60] 资本动态 - 全球资本市场高度关注,中美企业单轮融资额不断创新高,A轮融资额1-3亿美元已是常态 [43] - 例如,2025年9月Figure完成C轮超10亿美元融资,估值达390亿美元;同期1X也启动新一轮10亿美元融资;2025年上半年中国具身智能企业近亿美元融资达4笔以上 [43][44] 出海加速 - 2024-2025年中国具身智能产业进入出海加速期,商业服务与工业机器人出口同比增长显著,中国已成为全球第二大工业机器人出口市场 [53][54] - **典型路径**:1)技术出海:如宇树科技人形机器人凭借自研关节电机与算法,切入沙特智慧工厂等场景;2)本地化运营出海:如擎朗智能通过产品本地化改造及在日本建立密集服务网络,成功打开高标准市场 [53][54] 重点公司案例 - **特斯拉Optimus**:从2021年概念发布,历经原型机迭代,2023年底Gen 2展示更轻、更快、更灵巧的动作能力,采用全套自研执行器与传感器,目标最早2025年底对外销售,2026年批量生产,长期目标百万级年产量 [62] - **Figure AI**:全球通用人形机器人代表企业,估值390亿美元,产品快速迭代,并引入自研通用VLA模型Helix,采用“大脑”(低频规划)与“小脑”(高频执行)协同的系统架构,旨在打造具备跨场景泛化能力的类人劳动力 [64][65] - **擎朗智能**:实现人形与轮式机器人双线布局,构建覆盖多场景的完整产品生态,其综合技术力在场景理解、数据库规模、定制能力等六大维度显著高于行业平均,2024年在上海虹桥机场盛贸酒店落地全球首个“通用+专用”机器人协同运营的智慧酒店案例 [66][71][73] - **节卡机器人**:拥有从灵巧协作整机到数据训练系统的多元产品生态,依托在汽车、电子等工业场景的大规模部署获取海量高质量数据,并通过分层混合架构平衡AI模型创新与工业稳定性需求 [77][79][81] - **因时机器人**:作为微型伺服电缸领导者,通过垂直整合自研核心部件,突破灵巧手在性能、尺寸和成本上的“不可能三角”,其产品已在工业制造、人形机器人、科研算法训练等关键领域实现规模化落地 [83][85][88]
机器人“大脑”60年进化史:基础模型五代进化与三大闭源流派
36氪· 2026-01-15 11:48
文章核心观点 - 2025年成为机器人基础模型的“元年”,以视觉-语言-动作模型为代表的新一代范式开始涌现,其核心在于将大语言模型的常识推理能力与机器人控制相结合[23][31][35] - 机器人基础模型的发展是60年技术积累的集大成者,融合了编程式机器人的精确控制、基于模型方法的环境感知、行为克隆的示范学习、强化学习的自我优化以及大语言模型的常识推理[35] - 当前机器人行业围绕如何实现“通用机器人”的路径,形成了全栈整合、垂直突破和生态平台三大主要流派,它们对“通用性”的实现有着不同的底层假设和赌注[41][55][70][79] - 尽管2025年各家公司展示了令人惊叹的技术进展和Demo,但大规模商业化落地仍面临挑战,处于“展示很精彩,落地还未知”的阶段[82] 机器人技术范式演进 - **第一代:编程式机器人**:始于1960年代,完全依赖预设代码执行固定动作,零容错和零灵活性,典型代表是1961年在通用汽车工厂投入使用的Unimate[6][8] - **第二代:基于SLAM的方法**:兴起于1990年代,核心是让机器人通过传感器感知环境并构建地图进行路径规划,在导航任务上成功,但在操作复杂任务上效率低下,例如2010年机器人叠一条毛巾平均需24分钟[9][11] - **第三代:行为克隆**:在2010年代中期出现,通过模仿人类演示数据来训练神经网络,实现了从数据中学习,但存在数据效率低和泛化性差的致命缺陷,例如训练抓取需要数十万次数据且难以跨机器人型号迁移[13][15] - **第四代:强化学习**:2010年代后期随AlphaGo成功而受关注,让机器人通过试错和奖励机制自主学习,但存在训练速度慢、成本高、难以获取物理常识的根本问题[16] - **第五代:VLA模型**:2020年代中期随大语言模型成熟而诞生,将视觉、语言和动作统一到一个端到端的神经网络中,能直接理解指令并利用大模型中的常识进行推理与规划,代表了当前的范式革命[17][18][19] 2025年成为机器人基础模型元年的关键因素 - **大语言模型“够用了”**:2024至2025年,OpenAI、Anthropic、Google等公司发布的模型在理解指令、规划任务和常识推理方面已足够成熟和稳定,为具身智能提供了良好基础[24][26] - **算力价格大幅下降**:随着GPU云服务商价格战和NVIDIA GPU大量铺货,算力强度增强而等效价格降低,初创公司已能负担数千张卡进行模型训练[27][30] - **硬件供应链成熟**:2024年人形机器人热潮带动资本涌入上游零部件领域,中国供应商在电机、减速器、传感器等部件上获得大额融资并扩产,降低了硬件成本和机器人开发门槛[31][33] 闭源模型机器人主要流派 - **全栈整合派**: - 代表公司为特斯拉Optimus和Figure AI,核心理念是机器人基础模型必须与硬件深度垂直整合才能发挥最大效果[41] - 特斯拉试图将其在FSD上积累的海量真实世界数据、端到端架构迁移至机器人,但2025年量产计划遇阻,组装1000多台后暂停生产并面临重新设计,且其使用人类视频训练模型的方法受限于机器手与人手之间的“物理差异”[43][45][46][47] - Figure AI在2024年初与OpenAI深度合作,2025年2月宣布分手并迅速推出自研的Helix模型,该模型采用“System 1, System 2”双系统架构,用单一神经网络控制上半身35个自由度,公司于2025年9月完成10亿美元C轮融资,估值飙升至390亿美元[49][50][52][54] - **垂直突破派**: - 代表公司为Dyna Robotics,核心理念是追求“从专精到泛化的涌现”,先让机器人在洗衣房、餐厅等垂直场景“打工”做到极致,积累高质量数据和元学习能力,再迁移至其他任务[55][57] - Dyna Robotics于2025年4月发布DYNA-1基础模型,其机器人在24小时内自主折叠700多张餐巾,成功率超过99.4%,吞吐量达人类速度的60%[55] - 该流派认为机器人基础模型的缩放定律与大语言模型不同,性能瓶颈更在于“数据质量”和“物理一致性”,而非单纯追求参数和数据量[60][62] - 其他玩家包括从通用模型切入的Skild AI,以及拥有海量垂直场景数据的亚马逊,后者在2025年7月宣布部署了第100万台专用机器人,并正在开发通用机器人基础模型[65][68][69] - **生态平台派**: - 代表参与者为NVIDIA、Google、OpenAI、Meta等,核心理念是通过控制工具链和生态标准来赢得市场,技术路线本身并非唯一决胜因素[70][72] - NVIDIA在2025年3月GTC大会上开源了GR00T N1模型,但旨在通过全套生态工具链实现生态锁定[72] - Google通过开源RT系列研究及开放数据集在学术界建立影响力,并推动Gemini AI成为通用控制平台[74] - OpenAI和Meta采取投资、招聘和内部研发并举的策略低调布局机器人平台,例如OpenAI投资了Physical Intelligence[74][77] 行业现状与未来展望 - **2025年现状**:各家公司技术展示精彩但落地规模有限,特斯拉Optimus量产遇阻,Figure AI估值虽达390亿美元但实际部署仅几十台,NVIDIA的GR00T N1实际应用情况尚不明确[82] - **商业化路径与时间线**:预计将率先在商用服务场景与人工协同完成任务,家用场景的进入可能早于预期,不需要完整的通用人工智能,可能从叠衣服等单一功能切入,时间线可能在1-2年左右[83][85] - **市场潜力**:人形机器人有望成为史上最庞大的产业之一,预测将是一个5万亿美元的市场,全世界将遍布十亿台机器人[35]
英伟达还是放不下自动驾驶
创业邦· 2026-01-15 11:29
文章核心观点 - 英伟达在2026年CES上发布开源VLA大模型Alpamayo及配套工具,旨在通过提供“预制菜”式的完整智能驾驶开发解决方案,降低车企进入高阶自动驾驶的门槛,从而巩固并扩大其汽车芯片市场份额,对自动驾驶领域发起总攻 [5][8][22] 英伟达的新产品与战略 - 英伟达在2026年CES发布了面向自动驾驶的VLA大模型Alpamayo,这是首个开源的VLA大模型,同时推出了仿真框架AlpaSim和包含超过1727小时驾驶数据的Physical AI开放数据集,形成了一套完整的开发工具链 [5][9][11] - Alpamayo模型采用视觉-语言-行动架构,将传感器数据转化为语言符号进行推理决策,使过程可追溯、可解释,避免了端到端模型的“黑箱”问题 [7][9] - 英伟达汽车业务负责人吴新宙表示,Alpamayo与特斯拉FSD“非常接近”,在一对一测试中内部接管率处于同一水平 [7] - 公司最新的战略是构建“云端训练+车端推理”的智能驾驶工具链闭环,包括Vera Rubin数据中心芯片、世界模型Cosmos、DRIVE Orin/Thor硬件平台以及DRIVE Sim仿真平台,提供从硬件到软件的“保姆式服务” [21] 自动驾驶技术路线演进 - VLA已成为接棒BEV和端到端的自动驾驶年度热门技术路线,其优势在于让算法具备可解释的推理决策能力,效果比端到端模型更可控 [7][9] - 早期自动驾驶算法依赖人工穷举路况规则,效率低下;特斯拉的端到端方案简化了架构,但存在中间过程不透明、优化效果不可控的局限性 [9] - 除英伟达外,小鹏、理想、长城、奇瑞等车企以及特斯拉FSD V14都被认为采用了类似VLA的技术架构 [9] 行业竞争格局与英伟达的挑战 - 英伟达DRIVE系列在L2+及以上中高阶智驾市场占据多年霸主地位,但其汽车业务收入增长未达预期,公司希望通过新的软件战略进一步开拓市场 [15] - 英伟达汽车业务的主要客户是算法能力较强的国内新势力,但这些客户多有自研芯片计划;而销量更高的传统车企缺乏算法研发能力,难以成为英伟达芯片的大客户 [20] - 马斯克评论称“英伟达为汽车行业提供了有用的工具,但汽车行业本身却鲜有作为”,点明了车企在算法开发上的普遍短板 [13][14] 英伟达的商业模式调整 - 作为芯片公司,英伟达的核心目标是销售标准化硬件,所有软件投入都是为了降低客户使用门槛并绑定自家硬件 [20][21] - 过去英伟达坚决不亲自下场做车企的自动驾驶项目,Alpamayo的开源是其提升软件工具箱丰富度、坚持不做“乙方”策略的最新体现 [21][22] - 通过提供开源的底层模型和全套工具,英伟达让车企能基于自有数据微调,在降低开发难度和成本的同时保证了算法差异性,这种“预制菜”模式旨在吸引更广泛的车企客户使用其芯片平台 [10][11]
自动驾驶的人才,正疯狂涌入具身智能......
自动驾驶之心· 2026-01-13 17:52
行业趋势与人才流动 - 当前行业共识是自动驾驶进入存量阶段,而具身智能被视为下一波技术浪潮 [2] - 大量人才正从自动驾驶领域流向具身智能领域,技术大佬出走方向统一,表明两领域技术共通性强且人才流动趋势明显 [2] - 具身智能的发展阵仗类似2016/2017年的自动驾驶热潮,但预计发展速度更快,想象空间更大 [2] - 多家自动驾驶公司已开始布局机器人赛道,并着手搭建具身智能团队 [3] 关键技术进展:π系列模型 - π系列是视觉语言动作(VLA)领域的里程碑,其核心在于以持续技术突破引领生成式AI时代的机器人学习范式,重塑行业应用逻辑 [4] - π0(2024年10月):首创Flow Matching连续动作轨迹预测,突破传统离散动作精度瓶颈,为精密制造、自动驾驶等场景提供毫米级操作基础 [5] - π0.5(2025年4月):采用异构任务协同训练与层次化推理,在陌生环境复杂任务泛化成功率高达94%,通过人类视频训练使数据成本降低90%,大幅提升跨本体适应性并降低规模化部署门槛 [5] - π0.6(2025年11月):通过RECAP强化学习赋能零样本泛化与高效微调,真实世界效率与精度超越人类,实现工业级100%任务完成率与数十分钟快速换型,推动柔性生产落地 [5] - π系列模型能力引领通用机器人从实验室走向工业制造、家庭服务等实景应用,成为2025年以来业界众多VLA模型的核心参考 [5] - 不少具身智能公司基于π系列搭建真机演示(如叠衣服、拆箱子),或基于其思路进行改进优化 [5] 技术应用挑战与市场需求 - π系列模型存在调试困难、不易达到预期效果的问题,导致使用者需要花费大量时间“踩坑” [6] - 对于初学者而言,基于π系列完成从数据、VLA模型训练优化到部署的全套任务非常困难,有的甚至踩坑半年仍无法有效入门 [7] - 市场存在对项目指导的强烈需求,有项目经验有助于转行面试 [8][13] - 对于更新快速的技术路线如VLA,如何有效学习难倒了相当多的从业者,即使拥有真机设备也常不知如何使用 [10] 行业培训解决方案 - “具身智能之心”平台基于SO-100机械臂复现了π0、π0.5、ACT、GR00T等方法,旨在解决行业缺乏真机与项目指导的问题 [9] - 该平台联合业内VLA专家开发了国内首个《面向实战与求职的VLA小班课》,手把手指导复现π0系列 [10] - 课程内容全面,涵盖机械臂硬件、数据采集、VLA算法、VLA评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验及具身产业讲解 [14][15] - 购买课程的学员将获赠一套SO-100机械臂(包含示教臂和执行臂) [17] - 课程讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,聚焦产学研协同落地,并在顶级期刊发表学术论文10篇以上 [20] - 课程目标学员包括:正在具身领域求职需实战项目者、VLA领域需进阶者、从事具身智能研究的本硕博学生、希望从传统CV/机器人/自动驾驶转行者,以及对领域感兴趣的其他人员 [24] - 课程对硬件有建议配置:推理建议RTX 3060及以上,训练建议2张以上RTX 3090 Ti,学员也可自租云服务器资源 [24] - 学员学后预期收获包括:对具身产业及落地有清晰认识、简历上有足够项目支撑、达到1-2年以上算法工程师经验水平 [28] - 课程于2025年12月30日正式开课,分九章进行,有效期2年并提供微信群答疑 [25][29]
最近开源的一个框架,使用各种SOTA技术训练你的VLA模型
具身智能之心· 2026-01-12 11:36
行业痛点与市场缺口 - 行业现有的VLA模型训练工具(如OpenPi、LeRobot)缺乏一站式解决方案,核心能力存在明显缺失,无法满足前沿模型训练需求 [3] - 现有工具不支持异构数据集按可调混合比例进行协同训练,也不支持离散动作训练、VLM与动作解码器间的知识隔离,以及风格强化学习pipeline [3] - OpenPi的PaliGemma中Dropout层仅支持Jax框架,PyTorch版本缺失;LeRobot则缺少完整的checkpoint(缺失文本嵌入) [4] - 整体来看,行业缺少可复现、易访问、可扩展的VLA模型训练工具链,这制约了机器人领域嵌入式AI的科研进展与技术落地 [4] OpenTau框架的核心优化与功能 - 该框架基于LeRobot(PyTorch框架)进行拓展开发,完全兼容LeRobot生态,其所有合规的策略和数据集可直接复用 [5] - 补齐了PaliGemma在PyTorch框架下的Dropout层支持,解决了OpenPi仅Jax框架支持该功能的短板 [5] - 项目统一采用PyTorch框架,降低了跨框架适配带来的研发成本 [6] - 完善了checkpoint,补充了LeRobot缺失的文本嵌入,保证了模型功能的完整性 [7] - 保留了LeRobot多节点/多GPU训练、仿真环境评估的能力,同时新增多项核心训练能力,旨在打造一站式VLA训练工具链 [7] - 重要模块支持异构数据集按可调混合比例进行协同训练 [8] - 更新/新增功能包括:提供离散动作训练能力以加速VLM收敛;实现VLM backbone与动作解码器间的知识隔离;在VLM中加入Dropout层以降低过拟合风险;内置风格的强化学习pipeline [12] - 该框架填补了OpenPi、LeRobot在异构数据集协同训练、离散动作训练、VLM与动作解码器知识隔离、风格RL流水线等核心能力上的空白 [12] - 提供了完整可运行的checkpoint,并基于LeRobot拓展,在兼容其生态的同时补齐核心能力 [12] 开发者资源与社区生态 - 提供了详细的文档指引、本地Notebook示例和谷歌Colab笔记本,方便用户快速上手进行模型训练和评估 [12] - 提供了高成功率的预训练模型checkpoint(如TensorAuto/tPi0.5-libero、TensorAuto/pi05_base),可供用户直接下载使用 [12] - 存在一个名为“具身智能之心知识星球”的社区,自称是国内首个具身智能开发者社区,也是最专业最大的交流平台,关注方向广泛 [14][15] - 该社区汇总了近30条学习路线、40多个开源项目、近60个具身智能相关数据集,并声称有近200家公司和机构参与交流 [15] - 此外,还存在近60个技术交流群,覆盖大模型、VLA、强化学习、机器人仿真等多个方向,供开发者加入交流 [17][18]
马斯克diss英伟达自动驾驶:再等五六年
搜狐财经· 2026-01-09 16:00
文章核心观点 - 英伟达与特斯拉在自动驾驶领域从互补转向直接竞争 英伟达通过发布Alpamayo自动驾驶平台 以开放生态模式赋能车企 而特斯拉则凭借其庞大的真实路测数据与闭环迭代能力构建护城河 双方在技术路线、商业模式和产业生态上展开全面较量[1][5][26] 英伟达的战略与方案 - 发布Alpamayo自动驾驶平台 核心在于提供一套开发范式与基础设施 而非完整自动驾驶系统[7] - 技术核心是首次将视觉-语言-行动模型与思维链推理大规模应用于自动驾驶 旨在实现决策过程的可解释与可调试[7][9][11] - 商业模式为赋能者 提供作为“教师模型”的Alpamayo 1 供车企利用自身数据训练轻量级“学生模型” 避免与客户直接竞争[11] - 配套提供AlpaSim高保真仿真平台及超过1700小时带有因果标注的真实世界驾驶数据集作为训练资源[11] - 其开放平台策略已吸引客户 例如梅赛德斯-奔驰已开始与Alpamayo合作[24] 特斯拉的战略与优势 - 特斯拉对其他汽车制造商推销其FSD完全自动驾驶系统 与英伟达形成竞争关系[5] - 核心优势在于数据规模与真实路测 特斯拉FSD每天行驶里程超过1400万英里 并已开始完全无人Robotaxi测试[16] - 认为实现安全、无人监督的自动驾驶需要约100亿英里的训练数据[16] - 构建了“数据飞轮”闭环:更多车辆上路收集长尾场景数据 驱动模型快速迭代 该闭环建立在全球数百万辆保有车辆基础上[18][19] - 认为依赖仿真与有限路测无法赶上特斯拉 强调规模、数据和迭代是关键[16] 技术路线对比 - 英伟达路线:基于VLA和思维链 试图从外部通过仿真和标注数据构建“解释性推理” 更“白盒”[7][19] - 特斯拉路线:基于纯视觉感知和端到端神经网络 其系统性能提升高度依赖真实世界数据飞轮 更“黑箱”但经过现实锤炼[18][19] - 文章指出 基于信息进行推理并非英伟达独有 华为、蔚来等公司的智驾技术以及理想、小鹏、元戎启行等企业已在相关领域有所布局[13] - 特斯拉FSD本身是VLA和世界模型技术的大融合[13] 竞争本质与行业影响 - 竞争本质是生态位之战 特斯拉作为整车制造商 其“运动员”兼潜在“裁判”身份使其他车企难以采用其FSD方案 因涉及数据主权与供应链风险[24] - 英伟达作为不造车的纯技术供应商 其“赋能模式”让车企掌握数据主权和系统差异化能力 更易被行业接受[24] - 自动驾驶竞争从单车智能比拼 升级为数据生态、开发范式与产业联盟的全面较量[26] - 英伟达赌的是生态的广度 通过开放平台加速整个行业 特斯拉赌的是技术的深度与迭代速度[26] - 文章指出 在英伟达与特斯拉的竞争背后 中国企业在工程底蕴、市场规模和内卷力度上不容忽视[26]
VLA+RL技术交流群来啦~
具身智能之心· 2026-01-08 12:23
行业技术动态 - 行业正在积极构建围绕视觉语言动作模型的技术交流社群,社群关注方向包括VLA模型本身、VLA与强化学习的结合以及模型的轻量化与部署 [1]