VLA模型
搜索文档
只用SO-100可以完成π0和π0.5的效果吗?
具身智能之心· 2025-12-11 17:33
文章核心观点 - 文章指出视觉语言动作模型在从理论到实际部署的落地过程中存在显著障碍 包括开源模型难以复现效果、训练与部署脱节、以及缺乏系统性的实战指导 [2][4][10] - 文章旨在推广一门名为《面向实战与求职的VLA小班课》的课程 该课程宣称是国内首个系统性解决VLA落地难题的实战课程 提供从硬件、数据采集、算法训练到真机部署的全栈教学 [10][12][15] VLA模型落地的主要挑战 - **开源模型复现困难**:GR00T、π0等模型虽已开源 但依据开源代码难以展示出良好的演示效果 [2] - **训练与部署脱节**:训练过程像炼丹 损失函数虽已降低 但部署到实体机器人进行推理时任务常失败 且原因难以定位 [2] - **世界模型应用模糊**:业界讨论世界模型已一年多 但学习者不清楚如何在训练和推理中实际应用 [2] - **全流程打通门槛高**:将数据、VLA模型、训练优化、部署整套流程打通对初学者非常困难 有人踩坑半年仍无法入门或取得好效果 [4] - **模型训练存在大量“技巧”**:特别是π0、π0.5、GR00T这类模型 在数据采集和模型训练环节存在许多未公开的细节与技巧 [4] VLA落地的关键模块与难点 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动捕捉 在机械臂+VLA领域更多采用前两种 如何采集高质量数据及实现仿真到现实的转换是关键难点 [5][6] - **模型训练**:真机部署前需进行仿真调试 在真机数据不足时 使用Mujoco、Isaac Gym等框架进行仿真与Sim2Real尤为重要 [7] - **训练技巧至关重要**:如何微调模型、如何在小数据量下取得好结果是核心 许多学习者训练的模型存在机械臂运动不准、夹爪控制不好或运动误差大的问题 [7] - **算法选择影响效果**:ACT等算法相对简单易出效果 而π0和π0.5则非常难训练 对细节和技巧要求高 强化学习优化模型也极具挑战性 [7] - **模型部署与轻量化**:具身模型参数量大 即使是2B规模的模型 对边缘芯片部署挑战也很大 需通过量化、蒸馏等轻量化操作在保证性能的同时最小化参数量 [9] 课程解决方案与内容 - **课程定位**:该课程由具身智能之心平台联合业内VLA专家开发 是国内首个面向实战与求职的VLA小班课 旨在解决技术更新快、学习困难的问题 [10] - **课程内容全面**:课程涵盖机械臂硬件、数据采集、VLA算法、评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验以及具身产业讲解 [12] - **课程硬件配套**:购买课程即赠送一套SO-100机械臂 包含示教臂和执行臂 [17] - **讲师背景**:讲师为某机器人公司VLA高级研究员 拥有5年以上机器人行业实战经验 精通具身智能全栈技术 并在顶级期刊发表学术论文10余篇 [20] 课程面向人群与要求 - **目标学员**:包括正在具身领域求职需要实战项目的同学、VLA领域需要进阶的学习者、从事具身智能研究的各学历层次学生、希望从传统CV、机器人或自动驾驶转行的人员 以及对领域感兴趣的其他人员 [22] - **硬件与基础要求**:建议推理使用RTX 3060及以上显卡 训练建议2张以上RTX 3090 Ti 也可自租云服务器 学员需具备一定的Python和PyTorch基础 [22] 课程学习收获与安排 - **学后收获**:学员将掌握真机调试与数据采集、各类VLA算法在真机上的部署、对VLA模型量化有深入了解、对具身产业落地有清晰认识 简历可获得足够项目支撑 学完可达1-2年以上算法工程师经验水平 [25] - **开课时间**:课程于2025年12月30日正式开课 共分九章 持续至2026年2月25日 [23][26]
智能体将取代APP和SaaS,张亚勤院士发布这些AI洞见
第一财经· 2025-12-10 13:56
人工智能发展趋势与核心洞见 - 新一轮人工智能浪潮的本质是信息智能、物理智能与生物智能的深度融合,信息世界、物理世界与生物世界全面数字化,原子、分子与比特的边界正在消融[1] - 生成式AI正快速演进为智能体AI,智能体已成为近两年AI领域最重要的创新方向之一,其任务复杂度在过去七个月内翻倍,准确率超过50%,意味着AI开始执行复杂任务与决策[3] - AI正在从信息世界走向物理世界和生物世界,即从大语言模型走向视觉-语言-动作模型,以在真实世界中行动[3] 智能体(Agent)的演进与影响 - 未来的SaaS服务和终端APP都将被智能体所取代,智能体即未来的软件与服务形态,将涵盖消费、行业、机器人、自动驾驶等各种领域[4] - 以医疗智能体为例,多智能体网络可模拟三甲医院运作,在很短时间内处理相当于一家三甲医院两到三年积累的病例,且诊断准确率更高,目标是为医生提供强大的智能体助手[4] - 智能体是实现AGI的必经之路,需要新的算法体系、记忆体系和世界模型[6] 算力、成本与规模化法则 - Scaling law在预训练阶段的效果增长已逐渐放缓,智能提升的重点转移至后训练阶段的推理与智能体层面[3] - 推理的单位成本在过去一年下降至原来的十分之一,而智能体对算力的需求则增长了十倍,两者形成动态平衡[3] 机器人、自动驾驶与物理智能 - 机器人被视为未来最大的赛道,十年内机器人的数量或将超过人类[4] - 无人驾驶在2024年已到拐点,预计到2030年,约10%的新车将具备无人驾驶能力,那将是自动驾驶的“DeepSeek时刻”[3] 基础大模型与产业格局 - 人工智能时代的操作系统是基础大模型,它将像PC时代的Windows、移动互联网时代的安卓与iOS一样,彻底重写、重构并重塑整个产业形态[5] - 在此操作系统之下,芯片架构将随之演变;在其之上,以垂直模型、边缘模型和智能体为核心的应用生态将全面重建,整个产业的规模将比PC时代和移动时代大出2-3个数量级[5] - 如同操作系统般的基础大模型,全球最终可能不会超过10个,预计中美将各占半数,可能辅以少数其他国家的模型,形成开源与闭源并行的双轨发展生态[5] 技术架构与长期预测 - 未来五年,自回归架构、Transformer和Diffusion可能会被新的范式颠覆[6] - 实现信息智能、物理智能乃至生物智能的全面突破,预计可能需要十五到二十年的时间[6]
VLA 模型的泛化能力超乎你的想象:换个新相机和视角推理也能轻松搞定!
具身智能之心· 2025-12-04 11:10
文章核心观点 - 视觉-语言-动作模型在面临新相机视角等视觉扰动时性能下降的核心原因是其空间建模组件存在对齐偏差,而非物理建模能力不足 [2][9] - 通过一种极轻量级的单次自适应框架,仅更新少量参数即可重新校准视觉表征,从而显著恢复模型的视角泛化能力,这揭示了预训练VLA模型中存在大量未被挖掘的鲁棒性潜力 [3][14] VLA模型的泛化性困境 - VLA模型是具身智能核心技术,能将视觉观测和语言指令转化为机器人动作序列,在训练数据中表现优异 [4] - 然而,当面临未见过的相机视角、光照变化等视觉扰动时,模型性能会急剧下降,这是其落地的关键瓶颈 [6] - 现有提升鲁棒性的方法主要分为两类:成本高昂的数据中心范式和对任务无关因素敏感的表示中心范式,且参数高效微调技术极少直接用于优化视觉模块 [7][8] 空间建模是VLA泛化的核心瓶颈 - 研究将VLA模型解耦为空间建模与物理建模两个独立组件,并指出性能退化的主因是空间建模失准 [9] - 空间建模负责从图像构建物体空间关系,视角变化会导致其输出的空间表示失真;物理建模负责高层推理和动作生成,其任务逻辑不受视角变化影响 [12][15] - 通过嵌入漂移分析验证:新视角的视觉token与训练视角的token在嵌入空间中存在严重域间隙,轻量级适配后能使其对齐,性能随之恢复 [13] 方法设计:轻量级单次适配框架 - 提出单次适配框架,仅对视觉模块进行轻量级调整,语言编码器和解码器保持固定 [16][17] - 特征token调制是一种极简机制,仅用两个可学习参数向量对视觉token进行全局仿射变换,引入4K可训练参数,能将Libero数据集的视角准确率从48.5%提升至87.1% [3][18] - 特征线性自适应在FTM基础上,对ViT编码器的线性层进行低秩更新,仅引入470万参数,在实验中实现了90.8%的平均成功率,达到甚至超越了全量LoRA微调的效果 [3][19] 实验验证与结果 - 实验在Libero-V基准上进行,该基准引入了相机视角变化、光照变化、背景纹理扰动和传感器噪声四种受控视觉扰动 [23][27] - 在新相机视角任务中,FLA取得了90.8%的平均成功率,超越了LoRA微调的90.3%;FTM以87.2%的成功率接近LoRA微调,且仅用4K参数 [24][26] - 在多种视觉扰动下,FLA的平均成功率达94.8%,与LoRA微调持平;FTM以90.5%的成功率远超Prompt学习的75.1% [30][31] - 参数效率极高:FTM仅用0.004M参数达到90.5%成功率;FLA用4.70M参数达到94.8%成功率,远低于LoRA微调所需的467M参数 [32] - 真实世界实验表明,通过单次FLA适配,模型能在新相机视角下成功完成所有操作任务,有效弥合仿真与现实的域间隙 [33] 方法优势与结论 - FLA/FTM方法聚焦视觉模块的轻量级适配,无需修改模型架构或重新训练,是更高效、更实用的解决方案 [20] - 该方法精准定位了模型泛化性的瓶颈,并提出了高效解决方案,证明了针对性、极小化的视觉自适应足以恢复模型的视角泛化能力 [3][34]
2025商用具身智能白皮书:智启商业未来,身赋无限可能
艾瑞咨询· 2025-12-04 10:46
报告行业投资评级 - 报告未明确给出具体的行业投资评级(例如“增持”、“中性”或“减持”)[1][2][3][4][5] 报告核心观点 - 具身智能是人工智能的重要发展方向,被视为实现人工通用智能(AGI)的关键路径,其核心在于智能体通过感知-理解-决策-行动闭环与环境交互并持续学习[5] - 行业正处于从技术验证到大规模商业化的临界点,未来五年全球市场复合增长率预计达73%,中国市场规模预计从2025年的21亿元增长至2035年的2833亿元,实现百余倍增长[84][86][89][91] - 中美两国在基础模型、算力与应用落地方面展开战略竞争,中国凭借政策支持、完整产业链和庞大应用市场加速追赶,具身智能是中美科技竞争及中国实现“弯道超车”的关键赛点[12][13][24][26] - 商业化成功依赖于在续航、延迟、执行准确性、可靠性与经济效益五大维度同时突破,当前应用正从高ROI、低复杂度的工业制造、仓储物流等场景,逐步向高复杂度、高价值的场景渗透[55][56][59][62] 具身智能定义与战略意义 - **定义阐释**:具身智能是依托物理身体,通过感知-理解-决策-行动闭环与环境强交互并持续学习的智能系统,是机器学习、计算机视觉与机器人技术的综合体现,标志着AI走向实用化[5][6] - **商用场景分类**:商用具身智能服务于零售、餐饮、医疗等复杂动态环境,依赖多模态感知与人机交互;工业具身智能面向制造、能源等结构化场景,强调高精度与稳定性[9][10] - **战略意义**:发展具身智能可推动芯片、传感器、大模型等全产业链协同创新,形成万亿级新兴产业,是中美科技竞争的关键,对中国实现科技自立自强具有四重战略意义:科技升级突破、产业增长引擎、智能赋能转型、自主战略突围[12][13] - **政策激励**:中国已将具身智能上升为国家战略,中央层面出台6个以上全国性高维度政策,撬动超1800亿元资金支持,北京、上海、杭州等地方政府也积极响应出台专项规划[15][16][17][18][19] 当前发展阶段与关键挑战 - **发展阶段**:发展历程分为概念提出期(1950-2000)、技术积累期(2000-2020)和应用拓展期(2020至今)三个阶段,美国凭借算力与模型优势领先,中国依托政策与场景加速追赶[24][26] - **关键挑战**:行业面临四大瓶颈制约大规模商用:高质量多模态数据稀缺(数据瓶颈)、灵巧手操作成功率低于70%等技术不成熟(技术瓶颈)、单机成本超20万美元(成本瓶颈)、以及ROI周期长于7年等商业社会瓶颈[28][29] - **数据挑战与突破**:数据采集依赖遥操作、仿真合成等方式,但高质量数据稀缺、成本高企(例如特斯拉Optimus数据采集成本预计达5亿美元);业界正通过建设数据采集训练场、开发世界模型等方式寻求突破[32][33][35][36] - **模型演进**:视觉-语言-动作模型成为发展共识,技术正从初步验证向规模化探索演进,混合架构(高层大模型规划结合底层可靠算法执行)是平衡泛化性与可靠性的关键趋势[39][40][43][44] 具身智能的全球市场趋势 - **自主化程度**:当前自主程度类比自动驾驶处于L2-L3过渡阶段,已掌握L2级自主移动能力并探索L3级低技能操作,未来2-3年可能达到能力质变临界点[52][53] - **商业化突破点**:大规模商业化拐点需在续航、延迟、执行准确性、可靠性与经济效益五大维度均跨过可用门槛,形成正向增强的价值飞轮[55][56] - **场景渗透路径**:商业化沿价值阶梯演进,当前以高ROI、低复杂度的工业制造、仓储物流等为核心突破口,未来向高复杂度战略场景渗透,最终实现通用化服务[59][62] - **付费模式演进**:商业模式从一次性整机销售,逐步向降低客户门槛的机器人即服务模式演进,最终可能发展为按任务完成效果付费[64][65] - **全球科技浪潮**:具身智能处于第七次科技浪潮S型增长曲线的早期阶段,预计5年左右进入爆发临界点,类比光伏、锂电、电车等硬科技发展历程[67][68][71][72] 产业链与市场规模分析 - **产业链图谱**:产业链复杂度高,涵盖硬件、大脑和本体集成商三个维度,中国企业在产业链环节覆盖度和下游整机集成上已占据显著优势[75][76] - **资本热度**:全球融资活跃,美国Figure AI在2025年9月C轮融资超10亿美元,估值达390亿美元;中国企业在2025年上半年近亿美元融资达4笔以上,国内月度融资笔数显著增长[79][80][81] - **全球市场规模**:2025年全球市场规模预计为192亿元人民币,未来五年复合增长率达73%,预计十年左右达到万亿级市场需求;平均售价将从百万级在十年内降至20多万元[84][86] - **中国市场规模**:2025年中国市场规模预计为21亿元,到2035年将超过2833亿元,十年增长百余倍;工业和制造场景远期占比25%,复合增长率75%[89][91][92] - **出海加速**:中国具身智能进入出海加速期,2024年工业机器人出口总额11.3亿美元,同比增长43.22%;代表企业通过技术出海与本地化运营实现全球落地[94][95] 市场竞争格局和趋势 - **竞争格局**:市场存在三路核心玩家:以Figure AI为代表的AI原生挑战者、以ABB和擎朗智能为代表的场景资源先行者、以及以特斯拉和亚马逊为代表的自带需求跨界巨头[98][99] - **整合趋势**:产品同质化现象已现,参考电车产业发展历程,未来三年行业整合与第一轮洗牌不可避免,最终格局将是少数玩家的市场[102][103] - **初创企业生存之道**:面对巨头夹击,科创企业需凭借灵活创新、快速决策和深度定制服务寻找生存空间,并找到能带来长期赋能的战略伙伴[105][106] 典型企业案例研究 - **特斯拉Optimus**:从概念到Gen 2快速迭代,采用自研执行器与传感器,马斯克预测最早2025年底对外销售,2026年实现批量生产,长期目标百万级年产量[108][109][110] - **Figure AI**:专注于通用人形机器人,估值390亿美元,产品快速迭代并引入自研Helix通用VLA模型,旨在打造具备跨场景泛化能力的“类人劳动力”[111][112][113] - **擎朗智能**:形成人形与轮式机器人双线协同布局,拥有五大产品家族覆盖多场景;日均产生数亿条真实场景数据,服务全球6万客户,在场景理解、数据库规模等六大维度技术力领先[115][116][122][123][126][127] - **节卡机器人**:拥有多元产品生态,依托庞大的存量设备网络构建数据采集闭环优势,并采用分层混合模型架构平衡AI创新与工业场景稳定性需求[135][136][143][144] - **因时机器人**:聚焦灵巧手核心部件,自研微型伺服电缸实现除芯片外全栈自研,2024年灵巧手出货量近2000台,市占率超60%,在工业、人形机器人等领域实现商业化落地[146][147][152][154][156]
理想汽车自研AI推理芯片M100明年上车
搜狐财经· 2025-11-27 09:31
财务表现 - 2025年第三季度总营收为274亿元 同比下滑36.2% [1] - 2025年第三季度净亏损6.244亿元 而去年同期净利润为28亿元 [1] 自研技术进展 - 自研AI推理芯片M100控制器处于大规模系统测试阶段 预计明年启动商业化落地 [3] - M100芯片与自研基础模型编译器及软件系统协同开发 未来搭载于新一代VLA自动驾驶系统时性价比有望达当前高端芯片三倍以上 [3] - 新一代平台与芯片的研发工作已正式启动 [3] - 智能驾驶AI推理芯片采用与特斯拉Hardware 5.0类似架构 晶体管数量约400亿颗 已送往台积电流片 预计2026年量产装车 [4] - 自研芯片核心原因为专用芯片能针对自身算法进行特定优化 性价比和效率更高 [4] 自动驾驶系统规划 - VLA模型持续迭代优化 OTA 8.0为首个全量推送版本 核心聚焦安全体验优化 [3] - 12月初推送OTA 8.1 提升模型感知能力让响应更精准 [3] - 12月底完成架构升级 重点强化语言与行为信息交互并优化决策流程 同时适配2026年自研芯片M100上车 [3] - VLA模型依托世界模型与强化学习构建 相关能力已通过超3.12亿公里实际行驶数据验证 [4] 未来产品功能与愿景 - 2026年搭载以M100芯片为核心AI系统的产品正式交付后 汽车将从被动使用工具转变为具备自动化与主动化能力的服务提供者 [3] - 将推出行业首创防御型自动紧急制动功能以升级安全防护能力 [4] - 探索任意车位到任意车位全场景泊车功能 并结合自建超充站实现智能找车与自主充电功能 [4]
华为又投了一家具身智能机器人领域创企
Robot猎场备忘录· 2025-11-24 13:21
融资情况 - 公司于2025年10月30日完成亿元级A1轮融资,由华为哈勃和华控基金联合投资[2] - 公司于2025年8月28日完成Pre-A和Pre-A+两轮数亿元融资,投资方包括国中资本、紫峰资本、PKSHA Algorithm Fund、中金资本、广州产投、一村淞灵和华强资本[2] - 公司于2025年2月12日完成数千万元天使++轮融资,投资方包括普超资本、合鼎共资本和上海天使会[3] - 2025年公司已完成4轮融资,累计完成6轮融资,早期融资包括2024年9月近5000万元天使及天使+轮融资和2023年3月数千万元种子轮融资[3] - 公司是华为投资的第二家具身智能领域创企,另一家千寻智能Spirit AI已完成5轮累计近14亿元融资[4] 行业背景 - 2025年以来谷歌、OpenAI等国外科技大厂从大模型赋能转向投资和自研具身智能,国内蚂蚁、京东、阿里等大厂也加快投资步伐,华为是典型代表[6] - 资本开始青睐具备强大AI能力且同时涉及本体的初创公司,此类公司在2025年接连完成大额融资并取得商业化突破[25] 公司概况 - 公司于2023年1月在北京注册成立,定位为物理AI公司,专注世界模型驱动的物理世界通用智能,是国内第一家专注世界模型x具身大脑方向的科技公司[6] - 公司核心团队兼具领先研究能力和大规模产业落地经验,是少有的同时具备CV和大模型经验创始团队的具身智能初创公司[9] 核心团队 - 创始人兼CEO黄冠为清华大学人工智能方向博士,国家级创新领军人才,拥有超过十年AI技术和产业经验,曾在微软、三星、地平线等企业从事算法开发[12] - 首席科学家朱政为中科院自动化所博士、清华博士后,拥有超过70篇视觉和AI方向顶会论文,连续四年入选全球前2%顶尖科学家榜单[12] - 工程副总裁毛继明为百度、赢彻等T10级别架构师,曾担任百度Apollo仿真和工程负责人[12] - 产品副总裁孙韶言曾担任阿里云总监、地平线数据闭环产品线总经理[12] - 算法负责人陈新泽为中科院硕士,AI世界冠军得主[12] 技术路线 - 公司全栈自研,同时布局本体和大脑,产品包括世界模型平台GigaWorld、具身基础模型GigaBrain和通用具身本体Maker等物理AI全栈软硬件产品[10] - 公司技术路线是具身智能大模型和人形机器人本体同时涉及,在软硬件上全栈推进[25] 软件产品 - 世界模型平台GigaWorld应用于驾驶和具身两个方向,在驾驶方向已发表DriveDreamer、ReconDreamer等成果,在具身方向已发表EmbodieDreamer、RoboTransfer、EmbodiedGen等领先学术工作[13] - 公司将于近期发布具身世界模型平台GigaWorld-0[14] - 2025年7月公司发布全球首个主要依靠世界模型生成数据驱动的端到端VLA具身基础模型GigaBrain-0 Preview,实现开放世界零样本泛化[15] - 2025年10月底公司与湖北人形机器人创新中心联合发布端到端VLA具身基础模型GigaBrain-0,是国内首个利用世界模型生成数据实现真机泛化的VLA基础模型[15] - 2025年10月31日公司正式开源三大AI基础设施框架GigaDatasets、GigaModels和GigaTrain[16] 硬件产品 - 公司自研的全新一代具身智能人形机器人通用本体Maker H01即将推出,拥有丰富传感器配置和高度开放接口[17] - Maker H01尺寸为650*550*1620毫米,头部自由度2,单臂自由度7,躯干自由度4,底盘为四轮全向全驱,手臂额定负载3公斤最大负载5公斤,臂展794毫米[21] - 传感器配置包括头部RGBD相机1个、胸部RGBD相机1个、手部RGBD相机2个、头部RGB相机5个、底盘激光雷达1个和底盘超声波传感器8个[21] 业务进展 - 在自动驾驶世界模型方向已和多个头部主机厂达成签约合作,在具身世界模型和具身大脑方向已和多个具身本体、终端公司达成签约合作[22] - 应用场景包括科研、教育、展览、数据采集、工业、服务、家庭等多个领域[22] 行业地位 - 公司是国内第一家专注世界模型方向的创企,在世界模型和VLA大模型方向都处于领先水平[25] - 双系统架构技术路径VLA模型已成为具身智能领域模型主流,但仍存在数据、黑盒风险、泛化能力等问题[23] - 未来机器人通用大模型架构演进方向之一是将世界模型引入决策推理流程,英伟达、谷歌DeepMind和李飞飞的World Labs等头部公司都加速在世界模型方向布局[24]
2025商用具身智能白皮书
艾瑞咨询· 2025-11-20 08:04
行业定义与核心特征 - 具身智能是人工智能的重要发展方向,被普遍认为是实现人工通用智能的重要路径,其核心特征在于智能体依托物理身体,通过感知—理解—决策—行动的闭环与环境交互并持续学习 [2] - 全球专家强调,具身智能是机器学习、计算机视觉与机器人技术的综合体现,更是AI走向落地化和实用化的重要标志 [2] 商用场景分类与要求 - 商用具身智能服务于零售、餐饮、医疗、安防等复杂动态环境,更依赖多模态感知、人机交互和泛化能力,旨在提升服务体验与灵活运营 [4] - 工业具身智能主要面向制造、能源、矿山等高度结构化场景,强调高精度、高负载和长周期稳定性,目标是提升效率与保障安全 [4] 全球市场格局与战略意义 - 具身智能是中美科技竞争的关键战役,美国凭借算力基础、顶尖模型与资本生态实现先发优势,中国则依托政策支持、场景驱动与产业链协同加速追赶 [6][11] - 行业预计未来五年复合增长率达73%,十年左右时间达到年万亿级市场需求,2025年全球规模预计达192亿元人民币 [46] - 中国市场预计从2025年21亿元增长至2035年超过2,800亿元,实现十年百余倍增长 [50] 技术演进与模型发展 - 视觉语言动作模型成为发展共识,模型正经历端到端的范式演进,通过多模态统一框架将大型语言模型的推理能力与真实世界的感知、行动能力深度融合 [21] - 技术演进方向包括融合更多模态信息(视觉、语言、力觉等)以及生成适配不同构型机器人本体的动作指令以增强泛化能力 [21] - 单一模型无法满足复杂现实场景,混合模型架构是必然趋势,通过高层大模型进行认知规划,结合底层成熟算法实现可靠执行,形成“大脑”与“小脑”协同模式 [23] - 类比自动驾驶,行业自主程度处于L2-L3的过渡阶段,类比LLM则达GPT-2水平,未来2-3年或实现质变性飞跃 [27] 商业化进展与趋势 - 商业化正沿着价值阶梯演进,当前以高ROI、低复杂度的工业制造、仓储自动化和餐饮零售等“确定性”场景为核心突破口 [31][34] - 付费模式或将从一次性整机销售逐步过渡到“机器人即服务”模式,最终发展至“按任务完成效果付费” [35] - 行业处于S曲线早期阶段,预计5年左右进入爆发临界点,类似历史科技浪潮 [37] 核心挑战与瓶颈 - 行业面临四大瓶颈制约大规模商用:高质量多模态数据稀缺、灵巧手与泛化等技术未成熟、核心部件与算力成本高、ROI周期长及伦理安全问题 [13] - 数据获取依赖遥操作、仿真合成等方式,但高质量数据依然高度稀缺,成为关键瓶颈 [15][16] - 灵巧手是核心部件关键一环,面临小型化设计、敏捷控制和成本可靠性的“三难困境” [25] 产业链与竞争格局 - 产业链复杂度不亚于汽车制造业,涵盖从执行器硬件、传感感知到基础模型等漫长链条,中国企业在产业环节覆盖度和下游整机集成上已占优势 [41] - 全球竞争格局显现三股核心力量:以Figure为代表的AI原生挑战者、以ABB和擎朗智能为代表的传统机器人头部玩家、以及以特斯拉和亚马逊为代表的跨界巨头 [55] - 产品同质化已初现,未来三年整合趋势不可避免,第一轮洗牌不会太远,最终格局将是少数玩家的市场 [57] 代表性企业分析 - **Figure AI**: 估值达390亿美元,产品快速迭代,引入自研通用VLA模型Helix,致力于打造通用自主人形机器人 [1][64][65] - **擎朗智能**: 形成人形与轮式机器人双线布局,构建完整产品生态矩阵,在场景方案积累、数据库规模等六大维度上显著高于行业平均水平 [66][71][72] - **节卡机器人**: 拥有多元产品生态,依托庞大存量设备网络构建独特数据优势,并采用分层混合架构平衡AI创新与工业稳定性 [77][79][81] - **因时机器人**: 作为微型伺服电缸领导者,通过垂直整合自研核心部件,突破灵巧手技术瓶颈,已在工业制造等多个领域实现规模化落地 [83][85][88] 中国产业动态与出海 - 中国将具身智能纳入国家战略,中央与地方层面协同出台政策支持,包括资金支持、专项规划和试点示范 [8][9] - 中国具身智能产业进入出海加速期,2024年商用服务机器人全球出货量占比达84.7%,工业机器人出口总额为11.3亿美元,同比增长43.22% [53][54] - 代表企业如宇树科技和擎朗智能通过技术自主创新与本地化适配等路径,验证了中国具身智能在全球高标准市场的商业化可行性 [53][54]
优必选预计今年人形机器人营收4亿元,明年交付两千至三千台
南方都市报· 2025-11-18 17:23
交付与产能规划 - 公司今年迄今已交付约200台人形机器人,2025年全年计划交付约500台 [1] - 2026年计划交付2000至3000台人形机器人,并计划在2026年实现年产能5000台,2027年进一步扩大至10000台 [1] - 2024年公司仅出货10台人形机器人,相比之下交付量显著提升 [1] 财务与订单情况 - 人形机器人业务预计今年将为公司贡献约4亿元营收 [1] - 截至11月10日,Walker系列人形机器人全年累计订单金额已突破8亿元 [1] - 订单买家以汽车产业链公司为主,包括东风柳汽、天奇股份、觅亿汽车等 [1] 产品性能与技术进展 - 在搬运箱子任务中,人形机器人成功率为99%,搬运单个箱子耗时1.5分钟,较2025年上半年的2分钟有所改善,但效率仅为人类的30% [4] - 公司目标是在明年将搬运效率提升至60%,分拣场景的运用预计要等到2026年下半年 [4] - 视觉-语言-动作模型商业化尚未就绪,准确率约为70%,公司会为不同任务配备对应的垂类模型 [4] 产品交付与应用领域 - 公司已开始批量交付首批数百台Walker S2机器人,覆盖汽车制造、智能工厂、智能物流和数据采集中心等领域 [1] - 工业版Walker系列人形机器人面向汽车、3C半导体等行业客户 [1] - 量产交付前,公司对人形机器人进行了一年多的工厂"实训",将适合"上岗"的工种收敛为搬运、分拣和质检 [4] 新产品规划 - Walker系列新版本计划于2026年上半年发布,主要升级为搭载英伟达Thor芯片,外形无重大变化 [5] - 另一款具备高性能运动能力的新型号也计划在2026年上半年亮相,可能主要面向商业场景应用 [5]
小鹏成“最像特斯拉的中国公司”?
第一财经资讯· 2025-11-13 12:22
公司战略升级 - 公司战略定位从“未来出行探索者,面向全球的AI汽车公司”升级为“物理AI世界的出行探索者,面向全球的具身智能公司”,旨在超越汽车AI化,拥抱数字世界与物理世界融合的“物理AI”时代 [2] - 业务版图覆盖物理AI时代的技术底座,包括模型、芯片、基础设施及上层终端(如汽车、Robotaxi、人形机器人、飞行汽车) [2] - 该战略使公司被市场视为最像特斯拉的中国公司,截至2025年11月7日,公司市值达214亿美元,与理想汽车相近,高于蔚来汽车的170亿美元 [3] - 在科技日展示第二代IRON人形机器人后,公司美股股价于11月6日盘中一度上涨超14%,市值再度超越理想汽车 [3] 第二代VLA模型技术 - 第二代VLA模型采用V+L到A的架构,将语言信号作为视觉信号的并行输入,共同决策动作,以减少第一代VLA模型两次语言转换带来的信息损耗 [5][6] - 模型开发投入3万张卡算力、1亿视频Clips(相当于普通人驾驶6.5万年遇到的极限场景之和)及20多亿元训练费用,于今年二季度跑通 [5] - 模型架构与特斯拉在ICCV 2025分享的框架类似,均未完全抛弃语言信号,而是将其与多模态感知信号融合决策 [7] - 公司自动驾驶产品高级总监确认第二代VLA既是VLA模型,也是世界模型,使用VLA数据训练世界模型 [9] - 据称,第二代VLA使公司自动驾驶升级节点提前近两年,在复杂小路场景的平均接管里程提升13倍(20公里复杂小路仅需接管1次),并涌现出未特意开发的能力(如红灯变绿前缓慢蠕动、见人招手自动停下) [11] - 计划于2026年第一季度向Ultra车型全量推送第二代VLA,并评估向Max车型迁移的可行性 [11] Robotaxi业务布局 - 公司计划于2026年推出3款Robotaxi车型并启动试运营,成为国内第一家进军Robotaxi市场的造车新势力 [12] - Robotaxi针对L4智驾系统设计,采用前装量产模式,搭载第二代VLA模型,不依赖高精地图和激光雷达,技术路线与特斯拉对标 [12] - 商业模式上,公司不扮演运营商角色,车辆将接入高德出行平台;同时计划推出面向C端用户的私人模式L4汽车,以分摊BOM成本及研发费用 [15] 人形机器人战略调整 - 第二代IRON人形机器人具备性别设定、仿人脊椎、仿生肌肉及全包覆“皮肤”,科技日展示其猫步行走能力引发市场关注 [16] - 公司战略重心从工业场景(如拧螺丝)转向导览、导购、导巡等服务场景,因手部硬件(灵巧手)技术难度高、成本高昂(一个手成本可请工人工作几年) [18][20] - 公司暂避开了行业公认难度最高的manipulation(交互控制)技术,优先发展locomotion(移动控制),认为工厂及家庭场景落地尚需3-5年 [18][20] - 公司强调人形机器人项目的核心是“如何商业量产”,而非融资或作秀 [20] 行业技术对比与挑战 - 特斯拉Robotaxi业务于2024年6月在奥斯汀启动试运营,使用改装Model Y,Cybercab车型计划2025年4月量产;其车辆仍配安全员,实际进度未达L4 [14] - 特斯拉人形机器人Optimus因手部及前臂技术难题量产延期,最初计划2024年量产5000台,后降至2000台,实际仅生产几百台;第三代原型机发布延至2026年第一季度 [19] - 从L2辅助驾驶到商业可行的无人L4自动驾驶需跨越技术及商业鸿沟,而非渐进过渡;纯视觉方案与多传感器融合路线的技术可靠性之争尚无定论 [15]
从交通工具到智能体,具身智能开启了汽车产业万亿新赛道
36氪· 2025-11-10 16:01
政策支持与战略定位 - "十五五"规划将具身智能明确为未来产业核心增长点,并将汽车产业作为其落地的核心场景 [1][2] - 工信部聚焦车用人工智能、汽车操作系统等关键技术攻关,并加速建设20个"车路云一体化"试点城市 [2] - 商务部等8部门联合印发指导意见,从市场端鼓励智能网联汽车的准入试点与通行推广,形成政策引导-技术研发-市场应用的闭环生态 [2] 核心硬件技术突破与协同 - 赛恩领动4D成像雷达实现性能翻倍与成本优化的双重突破 [1] - 小鹏Iron机器人搭载的图灵AI芯片、天玑AIOS系统与鹰眼视觉系统,深度复用了小鹏在智能驾驶领域的长期积累,其720°无死角环境感知能力源自汽车智驾系统 [3] - 小鹏第二代VLA大模型创新性地跳过语言转译环节,直接实现从视觉信号到动作指令的生成,赋能汽车无导航自动辅助驾驶 [3] - 汽车产业对轻量化、高精度零部件的需求,反向推动机器人供应链成熟,如谐波减速器、六维力传感器等核心部件供应商多来自汽车零部件领域 [5] 汽车与机器人产业深度融合 - 小鹏Iron机器人发布与特斯拉擎天柱机器人展现出汽车与机器人两大万亿级赛道的深度交织 [1] - 中国汽车工程学会联合吉利汽车发布的白皮书,明确将VLA模型列为驾驶智能体的基础,其技术要求与具身智能高度一致 [5] - 长安汽车"北斗天枢"计划积累的数据与算力,其端到端智驾架构已进入准量产阶段,这些资源同样可为潜在机器人产品提供训练基础 [5] - 华为以智驾技术为核心,将多模态感知、端侧大模型部署能力延伸至汽车与智能终端 [5] 产业逻辑与竞争格局转型 - 汽车产业竞争焦点正从"制造能力"(硬件)转向"智能能力",推动产业从"硬件制造"向"生态运营"转型 [6] - 传统车企如比亚迪、上汽、长安凭借百万级量产经验与垂直一体化供应链优势,向"智能体运营商"转型 [6] - 小鹏Iron机器人已进入小鹏P7+产线参与作业,规划2026年实现工业L3级量产,验证了"汽车智驾技术向机器人迁移"的可行性 [6] - 特斯拉将汽车制造中的自动化经验、电池技术与AI算法迁移至机器人,其研发的核心技术反过来为汽车产业智能化升级提供新思路 [8] 供应链与生态体系重构 - 零部件企业如双环传动、绿的谐波凭借在减速器领域的技术积累,获得主机厂定点合作 [9] - 汇川技术、禾川科技与长安、奇瑞联合开发伺服与驱控系统,形成"主机厂+零部件企业"的协同研发模式 [9] - 汽车产业链从线性供应链转变为网状生态系统,竞争焦点转向"硬件+软件+服务"的综合能力 [9] - 特斯拉"汽车+机器人"的生态布局推动了伺服电机、谐波减速器等核心零部件的技术迭代与成本下降 [8] 应用场景拓展与市场潜力 - 具身智能催生多元化应用场景,从工业制造到出行服务,从座舱交互到售后运维 [10] - 在生产端,小鹏Iron机器人与特斯拉擎天柱已率先在汽车工厂落地 [10] - 在出行场景,搭载4D成像雷达的智能汽车能精准识别复杂路况,实现高阶智能驾驶在多场景下安全落地 [10] - 座舱交互向"超拟人化"演进,基于大模型的语音交互能理解复杂指令与情感需求,实现从功能控制到场景服务的跨越 [10] - 高盛预测2035年全球人形机器人市场规模达1540亿美元,花旗预计2050年市场规模突破7万亿美元 [12] - 仅中国汽车工厂及配套物流仓储领域,10年累计潜在需求达数百万台,对应数千亿元产值 [12]