Workflow
VLA模型
icon
搜索文档
宇树科技上市绿色通道被叫停?王兴兴回应:“乱编的消息”
搜狐财经· 2026-01-04 21:08
宇树科技上市进程与官方回应 - 有消息称宇树科技A股上市的“绿色通道”被叫停,但上市本身并未叫停,相关人士透露此举是希望为机器人赛道降温,因行业泡沫太大 [2] - 宇树科技官方声明否认申请过“绿色通道”,称相关报道内容与事实不符,误导公众并侵害公司权益,公司已向主管部门反映并保留法律追责权利,同时确认上市工作正常推进 [3] - 公司创始人王兴兴通过社交软件回应称该消息是数周前的旧闻被乱编和扩大,呼吁大家不要当真 [3] - 根据中国证监会官网信息,宇树科技已于11月完成上市辅导,拟申请境内IPO,辅导机构为中信证券,若成功上市将成为“A股人形机器人第一股” [3] 人形机器人行业上市动态与竞争格局 - 除宇树科技外,包括乐聚智能、云深处科技、智元机器人在内的多家公司也有明确的上市动作 [3] - 行业面临商业化路径和技术路线尚不明确的挑战 [3] 人形机器人技术发展现状与瓶颈 - 从产品层面看,目前几乎所有人形机器人仍停留在演示阶段,如跳舞拳击、走路摔跤,技术发展仍困在迷雾中 [4] - 从技术路线看,2025年VLA模型在人形机器人领域遇到麻烦,其训练所需的核心数据是连续的、动态的、三维甚至四维的时空轨迹流,而非互联网上的静态非结构化数据 [5][6] - 物理世界数据的稀缺性与复杂性成为制约VLA模型能力跃升的主要瓶颈 [6] 行业订单与供应链现状分析 - 摩根士丹利报告指出,厂商高调宣布的“亿元级订单”中,相当一部分属于框架协议或意向订单,而非确定性的、不可撤销的采购合同,执行确定性较低 [6] - 业内存在对订单中夹杂“左手倒右手”关联订单的质疑,即订单可能在关联方或生态链企业间流转,并非完全来自独立的第三方真实需求 [6] - 高盛于2025年11月初对9家中国人形机器人供应链企业进行实地调研,报告指出大多数供应商正在中国及海外积极规划产能,规划的年产能规模介于10万台到100万台机器人等效单位之间 [7] - 高盛认为这种产能规划“极其激进”,目前没有一家公司确认收到了大规模订单或明确的生产时间表 [7] 行业融资环境与监管风险 - 在技术进展和盈利前景不明朗的现状下,大量人形机器人创业公司需要借助二级市场融资以持续竞争 [7] - 发改委相关部门负责人公开指出,当前人形机器人在技术路线、商业化模式、应用场景等方面尚未完全成熟,并提示需防范重复度高的产品“扎堆”上市、研发空间被压缩等风险 [7] - 一旦风险资本降温,被挡在二级市场门外的机器人创业公司,可能重演多年前自动驾驶领域的公司倒闭潮 [7]
王鹤团队最新工作!解决VLA 模型多依赖单视角图像,缺乏精准几何信息的问题
具身智能之心· 2026-01-04 16:58
文章核心观点 - 由Galbot、北京大学、香港大学等团队联合提出的StereoVLA模型,通过融合立体视觉的丰富几何线索,系统性解决了现有视觉-语言-动作模型因依赖单视角RGB图像而缺乏精准空间几何信息、难以满足高精度操纵需求的核心问题,为机器人精准操纵提供了全新解决方案 [1] 现有VLA模型的核心挑战 - **单模态视觉局限**:现有解决方案中,手腕相机视野有限且易遮挡、增加碰撞风险;深度传感器对透明或镜面物体测量噪声大;多相机配置则增加硬件复杂度,且泛化性受相机姿态影响显著 [4][5] - **几何与语义融合难题**:立体视觉虽能提供丰富空间线索,但现有VLA模型缺乏有效机制融合几何信息与语义理解,直接输入立体图像会因视角差异细微导致性能次优 [6] StereoVLA的技术架构 - **特征提取模块**:创新性地融合立体视觉的几何线索与单视角的语义信息 [8] - **几何特征提取**:基于FoundationStereo预训练模型,提取过滤后的代价体积作为几何特征源,该特征通过注意力混合代价过滤模块捕捉长程空间关联,且无需额外深度估计计算 [12] - **语义特征提取**:利用SigLIP与DINOv2,仅对左视角图像进行处理,获取富含语义的视觉令牌 [12] - **特征融合策略**:通过空间池化统一几何与语义特征的分辨率,采用通道维度拼接方式融合,生成兼具几何精度与语义丰富度的混合特征表示 [12] - **辅助训练任务**:设计交互区域深度估计任务以强化模型细粒度空间感知能力 [8] - **聚焦交互区域**:将采样范围限制在夹持器与目标物体的交互区域,引导模型关注关键空间细节 [12] - **度量深度预测**:基于合成数据集的真实深度标签,训练模型预测交互区域内采样点的度量深度,提升操纵精度并加速模型收敛 [12] - **大规模数据支撑**:构建多维度数据集以解决立体视觉VLA数据稀缺问题 [8] - **合成数据生成**:利用MuJoCo与Isaac Sim生成500万条合成抓取-放置动作序列,渲染立体图像对 [12] - **语义增强数据**:融入互联网规模接地数据集GRIT,新增2D边界框预测辅助任务 [12] - **数据多样性设计**:生成三种不同随机化范围的数据集,覆盖15×10×15cm至150×50×60cm的空间变化 [12] StereoVLA的性能验证 - **核心任务性能突破**:在真实世界三类关键任务中,StereoVLA显著优于现有基线模型 [10] - **通用操纵任务**:包括常见物体抓取/放置、立方体堆叠等,成功率较基线提升明显 [13] - **条形物体抓取**:针对0°、45°、90°三种方向的条形物体,实现近完美抓取成功率 [13] - **中小尺寸物体抓取**:在1-2cm小型物体抓取任务中,以30.0%的成功率成为唯一有效模型,其他基线模型完全失败 [13] - **相机配置对比**:在四种主流相机配置对比中,StereoVLA展现出最优的性能-鲁棒性平衡 [14] - 立体视觉配置在中、大姿态随机化场景下性能优势显著 [17] - 相比前+侧面配置,StereoVLA在大姿态随机化场景下成功率提升157%,且部署更简洁 [17] - 具体数据:在单视角配置下,SpatialVLA-D模型在小/中/大随机化场景成功率分别为24.6%、13.7%、6.8%;在前+手腕配置下,GraspVLA模型成功率分别为71.3%、63.4%、54.8%;在前+侧面配置下,GraspVLA模型成功率分别为82.5%、55.7%、24.1%;而StereoVLA在立体配置下成功率分别为79.3%、71.9%、61.3% [14] - **核心模块消融验证**:通过系统消融实验验证各关键设计的必要性 [15] - **几何特征选择**:过滤后的代价体积表现最优,较相关体积+语义特征的组合,成功率从54.0%提升至77.0% [18] - **语义特征作用**:缺失语义特征时,模型抓取错误物体的概率显著增加,成功率平均下降20%以上 [18] - **深度估计策略**:交互区域深度估计较全图像均匀采样,成功率提升18% [18] StereoVLA的局限与未来方向 - **图像分辨率限制**:224×224分辨率对1-2cm小型物体的语义接地与定位精度不足 [18] - **长时程依赖缺失**:当前模型未捕捉长时程时间依赖,难以应对复杂连续操纵任务 [18] - **多机器人适配**:验证仅基于Franka机械臂,未来需扩展至人形机器人等多具身化场景 [18] - **特征提取优化**:可探索更多立体视觉基础模型的适配,进一步提升几何特征质量 [18] StereoVLA的范式价值与行业影响 - StereoVLA的核心贡献在于首次将立体视觉系统融入VLA模型,并建立了“几何-语义融合-聚焦式辅助训练-鲁棒性验证”的完整技术链路 [16] - 其在条形物体、小型物体抓取等高精度任务中的突破,以及对相机姿态变化的强鲁棒性,为机器人操纵从实验室走向真实复杂场景提供了关键技术支撑,加速了通用自主机器人的落地进程 [16]
2025商用具身智能白皮书
艾瑞咨询· 2026-01-01 06:34
文章核心观点 - 具身智能是人工智能发展的重要方向,被视为实现通用人工智能的关键路径,其核心在于智能体通过物理身体与环境进行交互学习,展现出自主性与适应性 [2] - 行业已从概念和实验室阶段迈向产业化初期,中美两国成为全球竞争的核心力量,市场潜力巨大,预计将开启万亿级市场规模 [1][6] - 尽管面临数据、技术、成本等多重瓶颈,但通过模型演进、政策支持、产业链协同与资本推动,行业正加速突破,商业化落地路径逐渐清晰 [13][21][29] 行业定义与特征 - 具身智能是机器学习、计算机视觉与机器人技术的综合体现,智能体通过“感知-理解-决策-行动”的闭环与环境交互并持续学习,是AI走向落地实用化的重要标志 [2] - 根据应用场景,主要分为商用具身智能和工业具身智能,前者服务于零售、餐饮、医疗等复杂动态环境,强调多模态感知与人机交互,后者面向制造、能源等结构化场景,强调高精度、高负载与稳定性 [4] 战略意义与政策环境 - 具身智能是推动科技产业链升级和培育新兴产业的关键力量,涉及芯片、传感器、AI大模型、能源等多个环节的协同创新,并带动制造、交通、零售等场景转型 [6] - 该领域是中美科技战略竞争的关键赛点,中国的发展关乎科技自立自强与国家竞争力提升,是实现“弯道超车”的重要机会 [6] - 中国已将具身智能纳入国家战略,中央与地方政府近两年密集出台行动方案、发展指导意见与资金支持政策,推动技术攻关、产业链协同和场景开放 [8][9] 发展阶段与全球格局 - 全球具身智能发展经历了三个阶段:1950年起的哲学思辨与概念萌芽期、2000-2020年的技术积累期、2020年至今的大模型驱动与应用拓展期 [11] - 美国凭借算力基础、顶尖模型与资本生态取得先发优势,中国则依托政策支持、场景驱动与产业链协同加速追赶,未来五年双方将在基础模型、算力和应用落地上展开竞争 [11] - 全球市场融资火热,2025年9月美国公司Figure完成超10亿美元C轮融资,估值达390亿美元,中国企业在2025年上半年也有多笔近亿美元级融资 [43][44] 技术瓶颈与突破方向 - 行业面临四大瓶颈:1)高质量多模态实操数据稀缺,缺乏数据评价机制;2)灵巧手、泛化能力与仿真到现实迁移等技术不成熟;3)核心部件与算力成本居高不下;4)商业投资回报周期长及伦理安全问题 [13] - 数据获取主要依赖遥操作、仿真合成、动作捕捉及互联网视频图像四种方式,但高质量数据仍是关键瓶颈,业界正通过建设数据采集训练场、开发世界模型及便携化工具来寻求突破 [15][16][19] - 灵巧手是实现精细操作的核心部件,面临结构紧凑性、敏捷性与可靠性的“三难困境”,是技术工艺难度最大、成本占比较高的环节之一 [25] 模型演进与技术趋势 - 视觉-语言-动作模型已成为发展共识,其核心是通过多模态统一框架,将大型语言模型的推理能力与真实世界的感知、行动能力深度融合,催生“机器人大脑” [21] - 模型演进路径清晰:2022年Google RT-1初步验证端到端范式,2023年RT-2提出VLA概念支持任务泛化,2024-2025年进入生态开放阶段,如英伟达推出开源基础模型Isaac GROOT [21][22] - 单一模型无法满足复杂现实需求,混合架构是必然趋势,行业共识是通过高层大模型进行认知与规划,结合底层成熟算法实现可靠执行,形成“大脑”与“小脑”协同模式 [23] 商业化现状与趋势 - 当前商业化自主程度类比自动驾驶,处于L2(自主移动)向L3(低技能操作)的过渡阶段,类比大语言模型则达到GPT-2水平,未来2-3年可能达到能力质变的临界点 [27] - 大规模应用拐点需在续航、延迟、执行、可靠性与经济效益五大维度均跨过可用门槛,当前行业处于从技术验证到价值闭环的关键攻坚期 [29] - 商业化正沿价值阶梯演进,初期集中在高投资回报率、低复杂度的确定性场景,如工业制造、仓储自动化和餐饮零售的基础环节,未来将向高复杂度、高价值的战略性场景渗透 [31][34] - 付费模式可能从当前的一次性硬件销售,逐步演进为降低客户前期投入的“机器人即服务”订阅模式,最终发展为按任务完成效果付费 [35] 市场规模预测 - 全球市场仍处于指数级增长前夜,据顶尖机构预测,2025年全球具身智能规模预计达192亿元人民币,未来五年复合增长率达73%,预计十年左右达到年万亿级市场需求 [46] - 中国市场凭借完善的工业体系和供应链,预计五年左右进入快速降本通道,保守估计市场规模将从2025年的21亿元人民币增长至2035年的超过2800亿元人民币,实现十年百余倍增长 [49][50] 竞争格局与代表企业 - 全球竞争呈现三路玩家格局:1)以Figure为代表的AI原生技术挑战者;2)以ABB、擎朗智能为代表的拥有深厚硬件与客户基础的传统机器人玩家;3)以特斯拉、亚马逊为代表的从自身需求出发的跨界巨头 [55] - 产品同质化已现,高昂的研发投入、复杂的供应链管理等因素将驱动行业整合,未来三年内第一轮洗牌不可避免,最终格局将是少数玩家的市场 [57] - 初创企业需凭借灵活创新、快速决策和深度定制服务寻求差异化,并找到能带来长期赋能的战略伙伴,以应对制造业与互联网巨头的竞争 [59][60] **代表性企业动态** - **Figure AI**:致力于打造通用自主人形机器人,其Figure系列快速迭代,并自研了名为Helix的通用VLA模型,实现了跨场景的零样本学习能力,估值已达390亿美元 [64][65] - **擎朗智能**:实现人形与轮式机器人双线布局,构建了覆盖多场景的产品生态,其VLA大模型KOM2.0已驱动机器人在智慧酒店等场景商业化落地,并在全球60余个国家开展业务 [66][71][73][75] - **节卡机器人**:拥有从机器人整机到数据训练系统的多元产品生态,凭借在汽车、电子等工业场景的大规模部署积累数据优势,并通过分层混合架构推动技术快速落地 [77][79][81] - **因时机器人**:作为微型伺服电缸的领导者,通过自研核心部件赋能灵巧手,解决了灵巧手对空间、精度和响应速度的极致要求,已在工业制造、人形机器人等领域实现商业化落地 [83][85][88] 中国产业出海 - 2024-2025年中国具身智能产业进入出海加速期,工业机器人出口额在2024年达11.3亿美元,同比增长43.22%,市场份额跃居全球第二 [53][54] - 出海模式正从“单点出货”迈向“体系化落地”,例如宇树科技以高扭矩关节电机等自研技术切入沙特市场,擎朗智能则通过产品本地化改造及建立密集服务网络成功打开日本市场 [53][54]
对话大晓机器人董事长王晓刚:不押注VLA,押注世界模型
搜狐财经· 2025-12-25 15:59
公司战略与技术路线 - 大晓机器人由商汤科技联合创始人王晓刚出任董事长,公司不涌入机器人本体赛道,不押注视觉语言动作模型,而是将全部筹码押注于“世界模型”方向 [6] - 公司认为现有主流技术路线存在明显缺陷,视觉语言动作模型是以机器为中心的范式,不需要真正理解物理世界和物理规律,难以支撑长时序、复杂任务和跨场景泛化 [4][6][7] - 公司提出的核心技术架构是“以人为中心的环境式采集、开悟世界模型,再加上具身交互”三层架构,其世界模型核心是“理解-合成-预测”的融合能力 [8][13] - 公司在产品化落地方面输出软硬一体的方案,在硬件方面与钛虎、鹿明等被投企业合作,并与影石Insta360合作将全景相机能力赋予机器人 [11][15] 行业现状与竞争格局 - 2025年具身智能是最拥挤也最焦虑的赛道之一,人形机器人价格已被压缩至万元以内,但技术路线分歧尖锐 [5] - 行业头部卡位尚未完成,领域远未成熟,目前能够规模量产的机器人场景主要是提供情绪价值的表演性质产品或作为科研平台,尚未出现能大幅提升生产力的规模化应用 [17] - 机器人行业的产业链分工尚未完善,成本依然很高,整个产业格局远未确定 [17] - 新公司的机会在于技术路线存在革命性变化的可能,以及产业链和规模化应用场景尚未成熟 [17] 市场机会与落地场景 - 公司短期看好的规模化落地产品是搭载了导航能力与各类AI应用能力的四足机器狗 [19] - 公司中期优先看好即时零售仓储应用场景,例如闪购仓、前置仓,这类场景需要大量人力支持7×24小时服务,机器人能充分发挥优势,预计明年国内将出现大量此类场景 [5][19] - 在世界模型范式下,机器人处理复杂场景的能力有望突破,例如前置仓场景中上万个不同类别的商品,新的技术范式有可能做到这一点 [23] - 公司更远期的目标指向五年后的家庭场景,但这更多涉及前沿技术探索 [20] 发展动因与竞争优势 - 商汤科技将具身智能业务剥离成立独立公司,是为了填补其在端侧软硬协同整体产品方面的空白,实现软硬件整合 [16] - 公司入局的契机是看到了以人为中心的ACE研究范式这一革命性变化,以及商汤过去积累的几千家客户资源能帮助快速实现规模化场景落地 [18] - 公司认为开源是其发展路径的关键,一旦开源可以获得各种反馈和场景,这也是中国在人工智能发展路径上的一个差异化点 [21][22]
业内首个RL+VLA汇总:强化学习如何推动 VLA 走向真实世界?
自动驾驶之心· 2025-12-24 17:22
文章核心观点 - 文章汇总了近期自动驾驶领域11篇结合视觉-语言-行动模型与强化学习的研究工作,指出行业研究重点已从传统的监督微调转向强化学习,以提升模型的泛化与推理能力,并解决幻觉问题 [2] - 这些研究来自全球顶尖高校与领先科技及汽车公司,代表了业界头部的研究方向 [2] 各研究模型核心贡献与性能总结 MindDrive (华中科技大学、小米汽车) - 核心贡献:提出双专家架构,通过决策专家进行场景推理与语言决策,动作专家将决策映射为轨迹,将连续动作空间转化为离散语言决策空间以提升在线强化学习效率 [6] - 性能表现:在Bench2Drive基准上,使用轻量级Qwen-0.5B模型实现了78.04的驾驶分数与55.09%的成功率,超越了同规模的最先进模型 [6] WAM-Diff (复旦大学、银王智能科技有限公司) - 核心贡献:采用离散掩码扩散迭代优化未来轨迹,结合稀疏混合专家架构和GSPO在线强化学习 [7] - 性能表现:在NAVSIM基准上实现了优异的性能 [7] LCDrive (得克萨斯大学奥斯汀分校、NVIDIA、斯坦福大学) - 核心贡献:设计潜在思维链推理机制,使用动作提议令牌与潜在世界模型令牌在向量空间模拟反事实未来,提升推理效率与精度 [12] - 性能表现:在PhysicalAI-AV数据集上验证,相比文本链推理基线,实现了更快推理、更优轨迹质量与更强的强化学习提升效果 [12] Reasoning-VLA (兰州大学、新加坡国立大学、中国科学技术大学、清华大学、新南威尔士大学) - 核心贡献:设计可学习动作查询与视觉语言模型跨注意力交互,支持一步并行生成连续轨迹;融合8个公开自动驾驶数据集构建统一训练数据以提升泛化能力 [13] - 训练策略:采用监督微调与强化学习两阶段训练,结合物理轨迹与车辆动力学奖励 [14] Alpamayo-R1 (NVIDIA) - 核心贡献:构建因果链数据集,提供高质量的决策接地因果推理轨迹;设计模块化架构,融合物理AI预训练的视觉语言模型骨干与流匹配轨迹解码器 [18] - 性能表现:实现99毫秒的实时推理延迟;在闭环仿真中,越野率降低35%,近距离接触率降低25% [18] AdaThinkDrive (清华大学、小米汽车、澳门大学、南洋理工大学、北京大学) - 核心贡献:设计“快速响应/慢速思考”双模式自适应推理机制,让模型根据场景复杂度动态选择直接预测或思维链推理 [20] - 性能表现:在Navsim基准测试中取得90.3的PDMS分数,较最优视觉基线提升1.7点,同时较“始终推理”基线减少14%推理时间 [20] AutoDrive-R² (阿里巴巴集团、昆士兰大学、兰州大学、凯斯西储大学) - 核心贡献:构建nuScenesR²-6K数据集,采用“观察-计算-逻辑推理-反思验证”四步逻辑链;设计融合空间对齐、车辆动力学和时间平滑性的物理基奖励框架 [25] - 性能表现:在nuScenes和Waymo数据集上实现最先进性能,7B版本平均L2误差低至0.20米,零样本迁移能力突出,较EMMA+等模型降低33.3%误差 [25] IRL-VLA (博世(中国)投资有限公司、上海大学、上海交通大学、博世汽车部件(苏州)有限公司、清华大学) - 核心贡献:提出轻量级奖励世界模型,基于逆强化学习从多模态数据中学习奖励结构,规避对仿真器的依赖;设计融合语义推理、3D推理与扩散规划器的视觉-语言-行动架构 [31] - 性能表现:在NAVSIM v2基准上取得最先进性能,并获得CVPR2025自动驾驶挑战赛亚军 [31] DriveAgent-R1 (上海启智研究院、理想汽车、同济大学、清华大学) - 核心贡献:首次将主动感知应用于高级行为规划,设计含检索视图、感兴趣区域检查等工具的视觉工具包;提出结合文本推理与工具增强推理的混合思维框架 [32] - 性能表现:仅3B参数就达到与GPT-5和人类驾驶相当的性能,在Drive-Internal测试集上使用工具后准确率提升6.07%,推理延迟较被动感知方法降低20%以上 [32] Drive-R1 (中国科学技术大学、华为诺亚方舟实验室) - 核心贡献:构建涵盖交通知识理解等五大领域的RP-COT数据集,提供长短链推理标注;设计基于GRPO的强化学习机制,结合多维度奖励对齐推理与规划 [37] - 性能表现:在nuScenes和DriveLM-nuScenes基准上实现最先进性能 [37] ReCogDrive (华中科技大学、小米汽车) - 核心贡献:设计生成、精炼、质控三阶段分层数据管道,构建大规模视觉问答数据集以注入驾驶先验;提出认知引导扩散规划器,将视觉语言模型语义转化为连续轨迹 [38] - 性能表现:在NAVSIM等基准实现最先进性能 [38]
又火出圈!马斯克赞不绝口
格隆汇APP· 2025-12-22 19:12
市场表现与近期催化 - 2025年12月18日,王力宏成都演唱会首次引入六台宇树科技人形机器人伴舞,完成高难度空翻,特斯拉CEO马斯克转发视频并评论“令人印象深刻”,该话题冲上热搜 [2] - 2025年12月23日周一,A股人形机器人板块反弹,机器人ETF(159770)跟踪的标的指数当日上涨1.47% [2] - 机器人ETF(159770)已连续7日获资金净申购,合计净流入3亿元,居机器人主题ETF产品第一;年内资金净流入82.12亿元,最新规模98亿元,资金净流入和规模位居深市同标的第一 [13] - 2025年迄今,机器人ETF(159770)跟踪的标的指数累计上涨22% [12] 行业近期动态:技术、场景与订单 - **技术突破**:北京人形机器人创新中心正式开源国内首个且唯一通过具身智能国标测试的具身VLA大模型XR-1,以及配套的数据基础RoboMIND 2.0、ArtVIP最新版,推动国内具身智能行业迈向“全自主、更好用”的新阶段 [10] - **场景落地**:2025年12月20日,具身智能企业加速进化BoosterK1举行全球首批规模化量产交付仪式,将基于“前店后厂”模式进入科研、教育、展演、服务等场景 [11] - **场景落地**:2025年12月17日,千平智能宣布其自主研发的人形机器人“小墨”在宁德时代新能源动力电池PACK生产线上“上岗”,标志着全球首条实现人形具身智能机器人规模化落地的生产线正式投入运营 [11] - **订单进展**:优必选中标惠州市5962万元工业机器人项目,并与德州仪器达成战略合作;2025年迄今,优必选订单总额已接近14亿元,Walker S2已开启量产交付 [11] 2025年进展与2026年展望 - **2025年进展总结**:人形机器人在运动控制方面取得很大进步,特斯拉Optimus展示了从舞蹈、整理衣物到在餐厅“打工”、进行功夫训练及承担引导投票等职能的快速演变 [17][19][20] - **2026年行业关键词**:量产将成为2026年行业共同的关键词,板块预计将从“题材炒作”转向对“订单—业绩弹性”的追求 [15][24] - **量产挑战与路径**:马斯克指出制造人形机器人的三大挑战在于:灵巧的手、理解现实世界的AI大脑、大规模量产能力;其中,具身智能的AI大脑是当前量产最关键的挑战,主流厂商开始采用视觉-语言-动作模型替代传统硬代码控制 [24] - **量产推动逻辑**:只有具备一定机器人数量规模的整机公司才能积累足够数据和用户场景,使算法进入正反馈循环,因此整机厂有足够动力加快推进量产 [25] 国内外公司量产计划与产业格局 - **特斯拉计划**:面向量产和消费级市场的第三代Optimus机器人设计已确定,计划在2026年2-3月准备生产原型机,2026年底启动百万台级产能建设,并设定了年产上亿台的远期目标 [28] - **国内公司进展**: - 优必选2025年产能达1000台,实现数百台交付,2026年计划交付数千台量级 [28] - 智元机器人宣布其通用具身机器人累计下线5000台 [28] - 宇树科技开始建厂规划 [28] - 乐聚机器人、众擎机器人、小鹏汽车、越疆等公司均在推进 [28] - **中国产业优势与规模**:中国人形机器人应用联盟估计,到2025年,中国人形机器人出货量预计将达到2万台,同比增长超过614%,贡献全球年度出货量的75%至85% [30] - **优势来源**:完善的供应链体系、强大的制造能力降低了成本,广泛的具身智能测试场地(高校、科研院所等)以及“研发-制造-测试-应用”的闭环体系,使中国成为全球首批跨越“大规模交付”产业门槛的国家之一 [31][32] 2026年投资思路与方向 - **投资逻辑转变**:过去两年“只要沾边就能涨”的Beta行情已经结束,2026年将是精选产业链个股的Alpha行情 [38] - **确定性更强的方向**:在整机格局尚未完全稳固的当下,确定性更强的是上游核心零部件,因本土和海外需求增加,且国产供应链响应快、产能释放速度快 [33] - **具体投资维度**:2026年人形机器人投资或收敛至三个维度: 1. 头部整机厂的核心供应商(确定性最强) [33] 2. 具备量产能力的国产整机龙头(弹性最大) [33] 3. 核心零部件的国产替代先锋(有实质订单落地),如行星滚柱丝杠、谐波减速器、六维力矩传感器等 [33] - **供应链格局**:多条供应链持续构建,以整机厂为核心划分,如特斯拉链、宇树链、智元链、小鹏链等;随着特斯拉Gen 3设计定型开始量产,供应链也逐步收敛 [33] 相关金融产品概况 - **机器人ETF(159770)**:跟踪中证机器人指数,与Wind人形机器人指数成分股重合度达61%,布局人形机器人全产业链,一键布局特斯拉链、宇树链、智元链、优必选链等核心产业集群 [34] - **配置重点**:重点配置了具备规模化生产能力的零部件企业,如汇川技术、绿的谐波、鸣志电器等,在人形机器人与工业自动化间取得平衡 [34] - **前十大权重股**:包括汇川技术(权重9.77%)、科大讯飞(8.98%)、大华股份(5.21%)、中控技术(4.38%)、石头科技(4.38%)、大族激光(4.30%)、双环传动(3.76%)、机器人(2.98%)、云天励飞-U(2.56%)、科沃斯(2.52%),合计权重48.84% [35] - **行业定位**:人形机器人行业正处于类似于新能源汽车2015-2016年的前夜,产业奇点已至,板块仍有巨大成长空间,但分化即将来临 [36][37]
超越π0.5,MiVLA通过人机相互模仿预训练,破解 VLA 模型泛化与数据瓶颈
具身智能之心· 2025-12-22 09:22
文章核心观点 - 由同济大学、电子科技大学等团队提出的MiVLA模型,通过“人机相互模仿预训练”范式,首次实现了无需真实机器人数据,仅融合模拟机器人数据与人类视频数据进行训练,就能在机器人视觉-语言-动作模型领域取得超越现有顶尖模型的泛化能力,为通用机器人策略学习提供了低成本、高可扩展的新路径 [2][19] 当前VLA模型训练的困境与MiVLA的解决方案 - 当前VLA模型训练面临双重困境:依赖真实机器人数据受限于高昂的采集成本、有限的场景与机器人形态覆盖,导致数据规模难以扩大;依赖单一模拟数据或人类数据则分别受限于“模拟-现实鸿沟”和人机形态差异导致的动作知识迁移难题 [3] - 现有方案无法同时解决“数据稀缺”与“跨模态迁移”的核心矛盾,而优质的VLA预训练需要“数据规模、行为保真、跨模态适配”三者的统一 [3] - MiVLA模型通过“人机双向动作映射消除形态鸿沟,相互模仿预训练融合双源数据优势”,构建了兼顾通用性与实用性的VLA模型 [3] MiVLA模型的核心设计特性 - **核心特性1:双向人机动作空间映射**:通过选取人类拇指指节姿态与机器人末端执行器姿态作为核心参考点,结合逆运动学或解剖学先验,实现人类与机器人动作坐标系的双向精准转换,并将人机专属关节空间与通用末端执行器空间统一对齐 [7] - **核心特性2:人机相互模仿预训练**:采用“预测-模仿”双任务预训练范式,模型从单一模态数据中学习双模态动作知识,利用L2损失函数同时优化“模态内动作预测”与“跨模态动作模仿”,实现了模拟机器人数据的操控多样性与人类视频数据的行为保真度的优势互补 [8][9] - **核心特性3:扩散Transformer架构**:采用“多模态编码器+扩散解码器”的统一架构,通过流匹配迭代去噪生成连续动作序列,兼顾多模态信息融合与连续动作生成精度,支持长序列任务的精准控制 [8] - **核心特性4:轻量化高效训练**:预训练仅需4块A100 GPU,批量大小为128,使用约900小时混合数据(模拟机器人+人类视频)的训练效果,即可比肩需要10000+小时真实机器人数据训练的π系列模型 [8][9] 关键实验结果 - **模拟环境性能领先**:在RoboTwin-2.0基准的20项代表性任务中,MiVLA在Easy模式下的平均成功率为69%,在Hard模式(含域随机化)下为66%,大幅超越ACT、H-RDT等基线模型 [9][10] - **真实机器人跨形态泛化能力突出**:在3类异构机器人(单臂PiPER、单臂ARX-5、双足+双臂LocoMan)的真实任务测试中,MiVLA以中等规模混合数据实现了平均55%的成功率,比肩使用大规模真实数据预训练的基线模型 [11][13] - **对未知形态的适配性**:在双足+双臂复合机器人LocoMan上,MiVLA成功完成了长序列双臂协同任务,而所有基线模型均未见过此全新架构,证明了其强大的跨模态泛化能力 [13] - **数据效率与泛化能力**:仅需20条演示数据,MiVLA即可实现对未知位置、物体的有效适配,全量训练后平均泛化成功率达54% [15][17] 核心组件有效性与未来方向 - **消融实验验证核心组件**:实验表明,完整的人机相互模仿预训练是性能提升的关键,仅使用人类数据预训练或单向模仿,性能均不及双向模仿的完整模型 [14] - **未来优化方向**:计划融合视觉语言模型的语义推理能力以提升对抽象指令和未知物体的适配性;扩展融入触觉、声音等多模态数据以强化复杂物理交互的控制精度;扩大数据覆盖范围至高精度灵巧任务及更多人形机器人形态,以提升通用化水平 [18]
王晓刚和他的「世界模型」:一人管十狗,先让四足机器人上街干活丨36氪专访
36氪· 2025-12-19 18:31
文章核心观点 - 世界模型是具身智能领域解决主流技术VLA模型瓶颈的关键技术升级,其核心在于让AI理解并预测物理世界的运行规律,从而大幅降低对特定场景海量真机数据的依赖,并实现跨任务、跨场景的泛化能力[4][8][9][10] - 大晓机器人(商汤科技关联公司)发布了“开悟”世界模型3.0及“具身超级大脑模组A1”,旨在通过“世界模型+下游验证闭环”的方法论,率先在四足机器狗等成熟硬件上实现商业化落地,并规划了从城市治理向无人物流仓、家庭场景拓展的路线图[5][7][8][14][16] - 公司强调世界模型的有效性必须通过真实场景的闭环验证来建立,并分享了其以人为中心的数据采集方法论,以及通过To B场景驱动产业链成熟的商业化策略[14][15][38][40][56][58] 技术演进:从VLA到世界模型 - 过去一年,具身智能主流技术VLA模型遇到本质瓶颈:VLA依赖海量“画面—指令—动作”配对数据,像一个“超级模仿者”,但难以真正理解物理规律,导致换环境或对象后成功率下降[9] - VLA模型需要堆叠大量数据才能完成更多任务,但当前数据量难以为继:自动驾驶可积累数百万小时数据,而具身智能因需人工遥控采集,数据量仍困在10万小时量级[9] - 世界模型让机器人大脑从“死记硬背例题”转向“掌握通用公式”,通过理解物理世界的运行规律,支持预测、推理和规划,从而降低对特定场景、海量真机数据的依赖,并实现任务泛化[8][10][27][28] - 行业变化在于,开始把“模型能否在物理世界里闭环生效”作为第一性问题,而不仅是做演示动作[24] 大晓机器人的世界模型解决方案 - 公司发布“开悟”世界模型3.0:该模型在AI中建立物理世界运行规律,使机器人具备理解世界、预测后续状态的能力,可应用于四足狗、双足人形等多样构型本体[8] - 模型能力演示:只需输入文字描述、选择相机机位和机器人本体,世界模型即可生成以机器人为第一视角的动作画面,这些生成的画面与决策可教会机器人与物理世界交互[10][11] - 具身世界模型包含三大核心能力:1) 多模态理解(理解视频内容、相机位姿、3D轨迹、力学属性等);2) 多模态生成(生成可训练的数据和场景,可替换背景、本体等);3) 多模态预测(预测不同动作轨迹)[34] - 与生成式世界模型(如Sora)的区别:Sora是视频生成“黑盒”,不理解物体间的物理关系和因果规律;具身世界模型旨在让机器人在真实世界里进行推理、规划与决策[32][33] 世界模型的数据与方法论 - 世界模型架构与数据分为三层:1) 底层为描述世界物理规律的文本数据;2) 中层为以人为中心采集的人类与物理世界交互数据(如第一视角视频、动作捕捉);3) 上层为配合不同本体的真机动作数据[38] - 强调以人为中心采集数据的原因:以机器人为中心采集效率低,且不同构型本体数据难以复用;先采集人体数据训练出有物理常识的大脑,再迁移到不同机器人上,更容易实现规模化[39][40] - 世界模型可减少对真机数据的需求:自动驾驶真实数据可达数百万小时,机器人真机数据仅1万到10万小时;通过先用人体和环境数据做大盘,再用少量真机数据校准,可进一步压低真机数据需求[41] - 物理规律的覆盖有场景边界:世界模型无法无条件穷尽所有物理知识,公司策略是从道路场景开始,中期拓展至无人物流仓,未来再扩展至家庭场景[42][43] 商业化路径与战略 - 首款商业化载体选择四足机器狗:因硬件技术更成熟、稳定性更高,能更快进入真实场景验证世界模型能力并迭代[7][49] - 具体落地场景:作为机器狗“城管”进行街面巡查(如识别车辆违停、排查违规无人机),目前正与徐汇公安探讨城市治理新方案[6][7] - 商业化路线图:先用四足机器狗开拓增量市场;2-3年后通过轮式双臂机器人拓展至无人物流仓;后续再考虑双足人形与更复杂的家庭场景[16][43] - 商业模式:采取软硬一体策略,但会选择性自研关键部分并与生态伙伴合作,目标是交付可用的产品方案以降低成本、提升稳定性和安全性[50][51] - 市场切入策略:直接进入场景(To B),而非将世界模型卖给本体厂商,因公司更熟悉城市、文旅等场景客户需求,且可利用商汤既有资源摊薄进入成本[52][53] - 竞争策略:以场景为导向,优先寻找增量市场(如城市治理新方案),避免争夺已稳定的存量市场(如电力巡检),从而与本体厂商形成合作而非竞争关系[55] - 市场选择:先做To B市场,因To C市场对可靠性、安全性和耐久性要求极高,在无明确大规模应用场景驱动前,产业链缺乏动力投入巨大成本攻克工程难关;To B场景(智慧城市、园区管理等)能明确机器狗作为“数字员工”的价值,并容忍逐步迭代[56][57][58]
未来智造局|当AI走进物理世界:从一场技能赛看具身智能的“能”与“不能”
新华财经· 2025-12-18 00:53
文章核心观点 - 文章通过2025全球开发者先锋大会上的机器人演示,揭示了具身智能领域在技术进阶与商业化落地上取得的显著成果,同时也暴露了其在精细操作、环境泛化及工业稳定性方面存在的技术鸿沟,并指出了未来从模仿走向推理、统一全身协同以及解决数据与生态瓶颈的进化方向 [1][2][3][7][8][9] 从机器人的“能”看技术进阶 - 中国具身智能领域在过去一年“快步疾行”,例如智元远征A2人形机器人完成了无间断百公里跨省行走,证明了其移动稳定性 [2] - 行业商业化“大单”频现,机器人已真正进入工厂负责分拣、上下料等工作 [2] - VLA(视觉-语言-动作)模型的应用大幅提升了机器人大脑、小脑与本体的协同度,使其能理解人类指令并适应陌生环境,例如在插花比赛中能识别不同花材并完成任务,在餐厅服务中能识别可抓取位置并控制握力 [2] - 硬件方面取得进步,例如2025年首次将精细触觉反馈引入实用化产品,使灵巧手能感知力的大小和方向,并完成从感知到力控的闭环,实现精细抓握 [3] 从机器人的“不能”看落地鸿沟 - 在叠衣服等处理柔性物体的任务中,机器人面临巨大挑战,为覆盖一件特定样式衣服的堆叠状态分布,需要采集高达200小时的遥操作数据 [4] - 环境干扰(如光照变化、物体倒影)容易导致机器人操作不准,暴露了当前具身智能在物理场景理解上泛化性不足的短板 [4] - 在拧螺丝等精细操作上,机器人仍需人类遥操作辅助,其力觉反馈灵敏度不足以捕捉螺纹咬合瞬间的微小震动,且当前VLA模型对摩擦力、扭矩等物理特征的理解依然浅薄 [5][6] - 在工业搬运场景中,虽然技术相对成熟,但动作磕绊、箱子重心不稳等情况仍时有发生,距离稳定工业落地仍有差距,需要工程化方案解决实际问题 [7] 从“进化路标”看未来 - 行业研究范式尚未收敛,正在探索如“世界模型”等技术路径以解决大语言模型在物理世界三维空间建模与动态因果推理上的局限 [8] - 2025年11月,李飞飞教授创立的World Labs推出首款产品Marble,以多模态“世界模型”为核心,可从单张图像等生成持久性三维数字孪生空间 [8] - 技术演进需从“模仿”走向“推理”,将推理、规划与控制纳入同一闭环框架,并需从局部技能走向全身协同,统一全身控制与手部精细操作规划 [8] - 行业未来需走出“数据匮乏”,探索新收集技术并构建可规模化的数据工厂,同时需结束“各自为战”,通过建立开放基准与安全规范,鼓励算法开源与复现,以铺平产业化之路 [9]
2025商用具身智能白皮书
艾瑞咨询· 2025-12-14 08:04
文章核心观点 - 具身智能作为人工智能的重要发展方向和实现通用智能的关键路径,正从实验室走向产业化,开启万亿级市场,并成为中美科技竞争的关键领域 [1][2][6] - 行业当前处于大规模商业化的前夜,面临数据、技术、成本等多重瓶颈,但通过模型演进、产业链协同和政策支持,正加速突破,预计未来5-10年将进入爆发期 [13][37][46] - 中国凭借政策支持、完备供应链和庞大应用市场,在具身智能领域加速追赶,企业已在工商业场景获得订单并开启出海,预计市场规模将从2025年的21亿元增长至2035年的超2800亿元 [1][9][50][53] 定义与战略意义 - **定义**:具身智能是智能体依托物理身体,通过感知-理解-决策-行动的闭环与环境交互并持续学习,展现出自主性、泛化性和适应性,是AI走向落地实用化的重要标志 [2] - **战略意义**:具身智能是推动科技产业链升级和培育新兴产业的重要力量,涉及芯片、传感器、AI大模型、能源等多环节协同创新,并带动制造、交通、零售、医疗等场景转型,是中国在科技竞争中实现“弯道超车”的关键赛点 [6] 发展阶段与全球格局 - **发展阶段**:发展历程分为三阶段:1950年起的哲学思辨与概念萌芽、2000-2020年的技术积累期、2020年至今的大模型驱动与应用拓展期,全球进入快速演进新拐点 [11] - **中美竞逐**:美国凭借算力基础、顶尖模型与资本生态取得先发优势;中国则依托政策支持、场景驱动与产业链协同加速追赶,未来五年双方将在基础模型、算力和应用落地上展开比拼 [11] 商用场景与技术分类 - **商用与工业场景区别**:商用具身智能服务于零售、餐饮、医疗、安防等复杂动态环境,依赖多模态感知、人机交互和泛化能力;工业具身智能面向制造、能源、矿山等高度结构化场景,强调高精度、高负载和长周期稳定性 [4] - **自主化程度**:类比自动驾驶,当前处于L2(自主移动)向L3(低技能操作)的过渡阶段;类比大语言模型,则达到GPT-2水平,验证了规模定律的可行性,未来2-3年可能达到能力质变的临界点 [27] 核心技术演进与瓶颈 - **模型演进共识**:视觉语言动作模型成为发展共识,其通过多模态统一框架,将大语言模型的推理能力与真实世界的感知、行动能力深度融合,正逼近类似GPT-3的智能爆发临界点 [21] - **架构融合趋势**:单一模型无法满足复杂场景,混合架构成为趋势,即高层大模型负责认知、理解与规划,底层成熟算法实现可靠、精准执行,形成“大脑”与“小脑”协同模式 [23] - **核心数据挑战**:高质量多模态实操数据稀缺是行业关键瓶颈,数据获取主要依赖遥操作、仿真合成、动作捕捉及互联网视频图像四种方式,但高质量数据依然匮乏 [15][16] - **数据突破路径**:业界正通过“世界模型”、建设数据采集训练场以及便携化工具等方式探索解决方案,以降低数据成本,为大规模商业落地提供可能 [19] - **核心部件瓶颈**:灵巧手是实现精细操作的核心部件,面临结构紧凑性、敏捷性与可靠性的“三难困境”,是技术、工艺难度最大的环节之一 [25] 商业化路径与趋势 - **商业化突破点**:大规模应用拐点需在续航、延迟、执行、可靠性与经济效益五大维度均跨过可用门槛,并形成正向增强的价值飞轮 [29] - **场景渗透顺序**:商业化沿价值阶梯演进,初期集中在高投资回报率、低复杂度的确定性场景,随后向高复杂度、高价值的战略性场景渗透,最终实现通用化服务 [31] - **付费模式演进**:商业模式可能从当前的一次性整机销售,逐步演进为降低客户前期投入的“机器人即服务”模式,最终发展至按任务完成效果付费 [35] 市场规模与预测 - **全球市场**:2025年全球具身智能规模预计达192亿元人民币,未来五年复合增长率达73%,预计十年左右达到年万亿级市场需求,届时单台机器人售价将从目前的百万级人民币降至20多万元 [46] - **中国市场**:需求已初步显现,凭借完善供应链,预计五年左右进入快速降本通道,市场规模将从2025年的21亿元增长至2035年的超过2800亿元,实现十年百余倍增长 [49][50] 产业链与竞争格局 - **产业链复杂度**:产业链复杂度不亚于汽车制造业,涵盖执行器、传感、计算、模型等漫长链条,中国企业在产业环节覆盖度上已占显著优势,并在下游整机集成和应用场景上展现潜力 [41] - **三类核心玩家**:包括以Figure为代表的AI原生技术挑战者、以ABB和擎朗智能为代表的场景资源先行者,以及以特斯拉和亚马逊为代表的自带需求跨界巨头 [55] - **中期整合趋势**:产品同质化已初现,高昂的研发投入、复杂的供应链管理等挑战将促使行业在未来三年内迎来第一轮洗牌,最终形成少数玩家主导的市场格局 [57] 资本动态与典型企业 - **融资火热**:全球资本市场高度关注,2025年9月Figure完成超10亿美元C轮融资,估值达390亿美元;中国具身智能企业2025年上半年近亿美元融资达4笔以上 [43][44] - **典型企业案例**: - **Figure AI**:致力于打造通用自主人形机器人,估值390亿美元,其自研的Helix通用VLA模型实现了跨场景任务泛化 [64][65] - **擎朗智能**:实现人形与轮式机器人双线布局,构建了完整的具身机器人生态矩阵,在全球服务机器人市场出货量占比达84.7%,并通过本地化运营成功出海 [66][54][71] - **宇树科技**:宣称2025年营收目标突破10亿元,其人形机器人已出海至沙特等市场 [1][54] - **节卡机器人**:凭借在工业场景的大规模部署积累数据优势,并采用分层混合架构推动技术落地 [77][79][81] - **因时机器人**:作为微型伺服电缸领导者,通过自研核心部件赋能灵巧手,在工业制造、人形机器人等领域实现商业化落地 [83][85][88] 中国产业动态与出海 - **政策激励**:近两年中国将具身智能纳入国家战略,中央与地方层面协同出台行动方案、资金支持和试点示范举措,推动产业标准化与落地 [8][9] - **出海加速**:2024-2025年进入出海加速期,工业机器人出口额2024年达11.3亿美元,同比增长43.22%,2025年上半年同比增长61.5%,形成全球第二大出口市场,代表企业正从单点出货迈向体系化落地 [53][54]