VLA模型
搜索文档
王晓刚和他的「世界模型」:一人管十狗,先让四足机器人上街干活丨36氪专访
36氪· 2025-12-19 18:31
智能涌现 . 直击AI新时代下涌现的产业革命。36氪旗下账号。 世界模型并非一个凭空而来的概念。它的兴起,直指过去一年具身智能主流技术VLA模型所遇到的本质瓶颈。 文 | 富充 编辑 | 苏建勋 来源| 智能涌现(ID:AIEmergence) 封面来源 | 官方提供 四天前,"大晓机器人"的小红书发了一条视频,标题是:晓刚老师养了十只狗。 视频中,大晓机器人董事长,也是商汤科技的联合创始人王晓刚,站在十个不同形态的机器狗后面,他没有拿遥控器,手一挥,说着"任务已下发,出 发"。 以下文章来源于智能涌现 ,作者富充 不过,世界模型并非一个凭空而来的概念。它的兴起,直指过去一年具身智能主流技术VLA模型所遇到的本质瓶颈: VLA更像一个"超级模仿者",靠海量"画面—指令—动作"配对数据,让机器人学习特定技能;但它很难真正理解物理规律,所以换个环境、换个对象, 成功率就会下降。 因此,VLA需要堆大量数据,让模型"看过"不同的案例,才能完成越来越多的任务。但当前的数据量却难以为继:自动驾驶可轻易积累数百万小时行车 数据,而具身智能还需要工作人员遥控机器人采集数据,至今仍困在10万小时的量级。 机器狗们闻声而动:有 ...
未来智造局|当AI走进物理世界:从一场技能赛看具身智能的“能”与“不能”
新华财经· 2025-12-18 00:53
新华财经上海12月17日电(记者杜康、龚雯)在日前举办的2025全球开发者先锋大会上,机器人在插 花、搬运、救灾等真实场景中"各显神通"。冷冰冰的技术参数,在这里化作了鲜活的技能比拼。当然, 大赛也暴露了具身智能"笨拙"的一面:在叠衣服、拧螺丝等精细操作背后,不少机器人仍连着"遥操 作"的手柄。 恰恰是在这"能"与"不能"的缝隙中,公众得以窥见这一火热领域的技术边界与未来方向。 从机器人的"能"里看技术进阶 回望过去一年,中国具身智能领域"快步疾行":智元远征A2人形机器人完成无间断百公里跨省行走, 充分证明了机器人能够"走得稳";行业商业化"大单"频现,机器人真正进入工厂,负责分拣、上下料; VLA(视觉-语言-动作)模型的进化,则让机器人大脑更聪明,能够听懂人的需求。 在2025全球开发者先锋大会上,观众再一次真切看到了机器人的"能"。 更棘手的是环境干扰。"光照变化、桌子周边物体的摆放、强光下周边物体在桌子上的倒影等,都有可 能让机器人'智商下线',操作不准。这种难以将目标与'背景噪音'剥离的困境,折射出当下具身智能在 物理场景理解能力上的短板——泛化性不足。"参赛队员对记者表示。 ——拧螺丝等精细活儿 ...
2025商用具身智能白皮书
艾瑞咨询· 2025-12-14 08:04
文章核心观点 - 具身智能作为人工智能的重要发展方向和实现通用智能的关键路径,正从实验室走向产业化,开启万亿级市场,并成为中美科技竞争的关键领域 [1][2][6] - 行业当前处于大规模商业化的前夜,面临数据、技术、成本等多重瓶颈,但通过模型演进、产业链协同和政策支持,正加速突破,预计未来5-10年将进入爆发期 [13][37][46] - 中国凭借政策支持、完备供应链和庞大应用市场,在具身智能领域加速追赶,企业已在工商业场景获得订单并开启出海,预计市场规模将从2025年的21亿元增长至2035年的超2800亿元 [1][9][50][53] 定义与战略意义 - **定义**:具身智能是智能体依托物理身体,通过感知-理解-决策-行动的闭环与环境交互并持续学习,展现出自主性、泛化性和适应性,是AI走向落地实用化的重要标志 [2] - **战略意义**:具身智能是推动科技产业链升级和培育新兴产业的重要力量,涉及芯片、传感器、AI大模型、能源等多环节协同创新,并带动制造、交通、零售、医疗等场景转型,是中国在科技竞争中实现“弯道超车”的关键赛点 [6] 发展阶段与全球格局 - **发展阶段**:发展历程分为三阶段:1950年起的哲学思辨与概念萌芽、2000-2020年的技术积累期、2020年至今的大模型驱动与应用拓展期,全球进入快速演进新拐点 [11] - **中美竞逐**:美国凭借算力基础、顶尖模型与资本生态取得先发优势;中国则依托政策支持、场景驱动与产业链协同加速追赶,未来五年双方将在基础模型、算力和应用落地上展开比拼 [11] 商用场景与技术分类 - **商用与工业场景区别**:商用具身智能服务于零售、餐饮、医疗、安防等复杂动态环境,依赖多模态感知、人机交互和泛化能力;工业具身智能面向制造、能源、矿山等高度结构化场景,强调高精度、高负载和长周期稳定性 [4] - **自主化程度**:类比自动驾驶,当前处于L2(自主移动)向L3(低技能操作)的过渡阶段;类比大语言模型,则达到GPT-2水平,验证了规模定律的可行性,未来2-3年可能达到能力质变的临界点 [27] 核心技术演进与瓶颈 - **模型演进共识**:视觉语言动作模型成为发展共识,其通过多模态统一框架,将大语言模型的推理能力与真实世界的感知、行动能力深度融合,正逼近类似GPT-3的智能爆发临界点 [21] - **架构融合趋势**:单一模型无法满足复杂场景,混合架构成为趋势,即高层大模型负责认知、理解与规划,底层成熟算法实现可靠、精准执行,形成“大脑”与“小脑”协同模式 [23] - **核心数据挑战**:高质量多模态实操数据稀缺是行业关键瓶颈,数据获取主要依赖遥操作、仿真合成、动作捕捉及互联网视频图像四种方式,但高质量数据依然匮乏 [15][16] - **数据突破路径**:业界正通过“世界模型”、建设数据采集训练场以及便携化工具等方式探索解决方案,以降低数据成本,为大规模商业落地提供可能 [19] - **核心部件瓶颈**:灵巧手是实现精细操作的核心部件,面临结构紧凑性、敏捷性与可靠性的“三难困境”,是技术、工艺难度最大的环节之一 [25] 商业化路径与趋势 - **商业化突破点**:大规模应用拐点需在续航、延迟、执行、可靠性与经济效益五大维度均跨过可用门槛,并形成正向增强的价值飞轮 [29] - **场景渗透顺序**:商业化沿价值阶梯演进,初期集中在高投资回报率、低复杂度的确定性场景,随后向高复杂度、高价值的战略性场景渗透,最终实现通用化服务 [31] - **付费模式演进**:商业模式可能从当前的一次性整机销售,逐步演进为降低客户前期投入的“机器人即服务”模式,最终发展至按任务完成效果付费 [35] 市场规模与预测 - **全球市场**:2025年全球具身智能规模预计达192亿元人民币,未来五年复合增长率达73%,预计十年左右达到年万亿级市场需求,届时单台机器人售价将从目前的百万级人民币降至20多万元 [46] - **中国市场**:需求已初步显现,凭借完善供应链,预计五年左右进入快速降本通道,市场规模将从2025年的21亿元增长至2035年的超过2800亿元,实现十年百余倍增长 [49][50] 产业链与竞争格局 - **产业链复杂度**:产业链复杂度不亚于汽车制造业,涵盖执行器、传感、计算、模型等漫长链条,中国企业在产业环节覆盖度上已占显著优势,并在下游整机集成和应用场景上展现潜力 [41] - **三类核心玩家**:包括以Figure为代表的AI原生技术挑战者、以ABB和擎朗智能为代表的场景资源先行者,以及以特斯拉和亚马逊为代表的自带需求跨界巨头 [55] - **中期整合趋势**:产品同质化已初现,高昂的研发投入、复杂的供应链管理等挑战将促使行业在未来三年内迎来第一轮洗牌,最终形成少数玩家主导的市场格局 [57] 资本动态与典型企业 - **融资火热**:全球资本市场高度关注,2025年9月Figure完成超10亿美元C轮融资,估值达390亿美元;中国具身智能企业2025年上半年近亿美元融资达4笔以上 [43][44] - **典型企业案例**: - **Figure AI**:致力于打造通用自主人形机器人,估值390亿美元,其自研的Helix通用VLA模型实现了跨场景任务泛化 [64][65] - **擎朗智能**:实现人形与轮式机器人双线布局,构建了完整的具身机器人生态矩阵,在全球服务机器人市场出货量占比达84.7%,并通过本地化运营成功出海 [66][54][71] - **宇树科技**:宣称2025年营收目标突破10亿元,其人形机器人已出海至沙特等市场 [1][54] - **节卡机器人**:凭借在工业场景的大规模部署积累数据优势,并采用分层混合架构推动技术落地 [77][79][81] - **因时机器人**:作为微型伺服电缸领导者,通过自研核心部件赋能灵巧手,在工业制造、人形机器人等领域实现商业化落地 [83][85][88] 中国产业动态与出海 - **政策激励**:近两年中国将具身智能纳入国家战略,中央与地方层面协同出台行动方案、资金支持和试点示范举措,推动产业标准化与落地 [8][9] - **出海加速**:2024-2025年进入出海加速期,工业机器人出口额2024年达11.3亿美元,同比增长43.22%,2025年上半年同比增长61.5%,形成全球第二大出口市场,代表企业正从单点出货迈向体系化落地 [53][54]
何小鹏立“赌约”:明年8月底前达到特斯拉FSD效果
每日经济新闻· 2025-12-13 14:46
行业技术路线分歧 - 2025年辅助驾驶行业在发展方向上出现VLA与世界模型的技术路线分歧,理想汽车与小鹏汽车是选择VLA方案的代表 [4] - VLA被视为端到端方案的智能增强版,其架构包含视觉感知、大语言模型和动作执行,大语言模型作为中台负责将感知信息转译为规划与决策 [5] - 世界模型指AI系统通过感知数据构建对物理世界的内部模拟,从而具备预测、推理和生成合理行为链的能力,在辅助驾驶中能实现理解世界与预测未来 [9] - 华为、蔚来、商汤等企业布局世界模型路线,华为乾崑自研的WEWA架构包含云端世界引擎与车端世界行为模型,省去语言环节直接通过视觉信息控车 [8][10] VLA方案的核心观点与优势 - VLA模型的核心突破在于引入思维链,通过语言模型实现对环境理解与决策推理的可解释性,摆脱传统端到端模型的黑盒难题 [5] - VLA模型天然集成海量知识库,泛化能力更强,能够更好地适应复杂多变的真实道路环境 [5] - 理想汽车自动驾驶负责人认为,模型关键是与整个具身智能系统适配,数据起决定意义,其拥有数百万辆车构建的数据闭环,能在当前算力下将驾驶水平做到接近人类 [6][8] - 小鹏汽车计划在下个季度发布VLA 2.0,公司董事长与自动驾驶团队立下赌约,目标是2026年8月30日前其VLA系统在国内达到特斯拉FSD V14.2版本在硅谷的整体效果 [1] 对VLA方案的质疑与不同看法 - 宇树科技创始人王兴兴对VLA模型持怀疑态度,认为它是一个相对傻瓜式的架构,在与真实世界交互时,其数据质量和能采集的数据不太够用 [5] - 华为智能汽车解决方案BU CEO靳玉志表示华为不会走向VLA路径,认为该路径看似取巧,并非走向真正自动驾驶的路径 [8] 技术融合趋势与未来展望 - 行业分析认为VLA与世界模型在技术上并非对立关系,而是产业玩家在实现端到端能力后,在能力优化侧重点上出现的分化,双方技术融合趋势明显 [11] - 小鹏汽车发布的第二代VLA架构被描述为既是VLA模型也是世界模型,世界模型作为记录器存在,公司正用其VLA数据训练世界模型 [12][14] - 小马智行CTO表示大部分公司两种技术都用,世界模型和VLA模型不是同一维度的东西,两者不矛盾,选择不同路线是因为目标不同 [12] - 行业观点认为,VLA与世界模型的深度融合,有望成为高阶智驾系统实现类人驾驶决策能力的关键拐点 [14] - 业内预计在未来2至3年内,辅助驾驶的技术架构还将迎来1至2轮迭代,到2028年有望收敛至相对稳定的状态 [15]
何小鹏立“赌约”:明年8月底前达到特斯拉FSD效果!理想高管回应宇树王兴兴质疑,多家车企押注的VLA,靠谱吗?
每日经济新闻· 2025-12-13 14:31
文章核心观点 - 智能驾驶行业在技术路线上出现分化,以理想汽车和小鹏汽车为代表的企业选择VLA(视觉-语言-动作)模型方案,而以华为、蔚来等为代表的企业则更看重世界模型(World Model)方案,双方各执一词但技术未来有望深度融合 [6][7][9][12] 行业技术路线分歧 - 辅助驾驶行业技术底座经历了从“激光雷达+高精地图”到“BEV+Transformer”,再到“端到端”的范式迁移,2025年行业在发展方向上出现了VLA与世界模型的“分歧” [6] - VLA被视为端到端方案的“智能增强版”,其架构中V(视觉)负责感知,A(动作)负责控制指令,L(大语言模型)作为“中台”进行信息转译与决策推理 [7] - 世界模型指AI系统通过感知数据构建对物理世界的内部模拟,从而具备预测、推理和生成合理行为链的能力,在辅助驾驶中能实现理解世界并提前决策 [10] - 理想汽车与小鹏汽车是选择VLA方案的代表企业,而华为、蔚来、商汤等企业则在世界模型技术路线上进行布局 [6][9][11] VLA方案支持方观点 - 小鹏汽车董事长何小鹏宣布,小鹏VLA 2.0将在下个季度发布,并因是第一个版本而“压力很大” [1] - 何小鹏与公司自动驾驶团队立下“赌约”:若2026年8月30日前小鹏VLA系统在国内达到特斯拉FSD V14.2版本在硅谷的整体效果,他将在硅谷筹建特色中国风味食堂,反之自动驾驶负责人需在金门大桥裸跑 [3] - 理想汽车自动驾驶研发高级副总裁郎咸朋认为,VLA是自动驾驶最好的模型方案,模型关键要与整个具身智能系统适配,而数据起决定意义 [4] - 郎咸朋强调,空谈架构不如看疗效,理想汽车拥有数百万辆车构建的数据闭环,能在当前算力下将驾驶水平做到接近人类 [8] - 清华大学车辆与运载学院助理研究员颜宏伟表示,VLA是多模态大模型驱动的智能体架构,其核心突破在于引入思维链,实现了环境理解与决策推理的可解释性 [7] - 元戎启行CEO周光认为,VLA模型融合了语言模型,具备强大的思维链能力,能摆脱传统端到端模型的黑盒难题,且天然集成海量知识库,泛化能力更强 [7] 世界模型方案支持方观点 - 华为智能汽车解决方案BU CEO靳玉志明确表示不会走向VLA路径,认为该路径看似取巧,并非走向真正自动驾驶的路径 [9] - 华为更看重WA(世界行为模型),即World Action,中间省掉Language环节,直接通过Vision信息输入控车,其自研的WEWA架构包含云端的世界引擎(WE)与车端的世界行为模型(WA) [9] - 宇树科技创始人王兴兴对VLA模型持怀疑态度,认为它是一个相对比较傻瓜式的架构,在和真实世界交互时,其数据质量和能采集的数据不太够用 [7] 技术融合趋势 - 尽管企业各执一词,但VLA与世界模型两者并不矛盾,未来有望深度融合 [12] - 国海证券研报指出,VLA与世界模型在技术上并非同级或对立关系,产业玩家在实现端到端能力后,在能力优化侧重点上出现分化,双方技术融合趋势明显,均在向对方领域渗透 [12] - 理想汽车董事长李想提到,VLA可以拆解为预训练、后训练和强化学习三个层面,强化学习中最重要的一步就是在世界模型里闭环学习 [12] - 郎咸朋表示,世界模型的高算力需求决定了它更适合在云端做数据生成和极度逼真的仿真测试和强化训练 [12] - 小马智行CTO楼天城认为,大部分公司两种技术都用,世界模型和VLA模型不是一个维度的东西,而是交错的,不矛盾不冲突 [13] - 小鹏汽车有将两种技术融合的趋势,其发布的第二代VLA架构中,世界模型是作为二代VLA的一个记录器存在,在用VLA数据训练世界模型 [13][16] - 小鹏汽车自动驾驶产品高级总监袁婷婷表示,小鹏的二代VLA既是VLA模型,也是世界模型 [16] - 小米汽车主任科学家陈龙认为,VLA管“抽象思考”,世界模型管“物理感知”,两者结合才是通往更强通用具身智能 [16] - 国元证券认为,未来VLA与世界模型的深度融合,有望成为高阶智驾系统实现类人驾驶决策能力的关键拐点 [16] 技术演进与公司动态 - 小鹏汽车第一代VLA方案是V到L再到A,第二代VLA是V+L到A,把L转移到了输入端,何小鹏解释称第一代涉及两次语言转换会带来大量信息损耗,第二代以视觉为核心,把模型看到的世界直接转换成运动轨迹 [13][16] - 长安汽车智能驾驶高级总工程师预测,未来2至3年内辅助驾驶的技术架构还将迎来1至2轮迭代,到2028年有望收敛至相对稳定的状态 [17]
用SO-100,竟然完成这么多VLA实战......
具身智能之心· 2025-12-13 09:02
文章核心观点 - 文章指出,视觉语言动作模型在从理论到实际部署的落地过程中存在显著障碍,许多初学者和研究者即使拥有开源模型和硬件,也难以复现演示效果或成功部署[2][4] - 文章认为,打通数据采集、模型训练优化与部署的全流程存在高门槛,涉及大量未公开的实践技巧,导致学习曲线陡峭,效果难以保证[4][7] - 文章旨在推广一门名为《面向实战与求职的VLA小班课》的付费课程,该课程宣称提供从硬件到算法的全栈实战培训,以解决上述落地难题[10][12] VLA模型落地的主要挑战 - **模型复现与效果达成困难**:即使如GR00T、PI0等模型已开源,依据其代码也难以展示出良好的演示效果[2] - **训练与推理存在鸿沟**:训练过程类似“炼丹”,损失函数虽已降低,但部署到实体机器人进行推理时任务常失败,且原因难以定位[2] - **世界模型应用模糊**:业界讨论世界模型已一年多,但学习者不清楚如何在训练和推理中具体应用[2] - **全流程打通门槛高**:将数据、VLA模型、训练优化、部署整套任务打通对初学者非常困难,有人踩坑半年仍无法入门[4] - **模型训练依赖技巧与细节**:π0、π0.5、GR00T等模型的训练存在许多“trick”,对细节和技巧要求很高[4][7] VLA落地的关键模块与技术难点 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动捕捉,以及强化学习,在机械臂领域多采用前两种,如何保证数据质量及实现sim2real是关键[5][6] - **模型训练与仿真调试**:在真机数据不足时,仿真和sim2real尤为重要,常使用mujoco、Isaac Gym等框架,训练技巧是关键,例如如何微调模型、在小数据量下取得好结果[7] - **模型部署与轻量化**:训练完成后需对模型进行“瘦身”,因具身模型参数量大,即使2B规模对边缘芯片部署挑战也大,需采用量化、蒸馏等轻量化操作以保证性能并最小化参数量[9] 课程内容与结构 - **课程定位**:课程由具身智能之心平台联合VLA专家开发,宣称是国内首个面向实战与求职的VLA小班课[10] - **课程内容覆盖面广**:涵盖机械臂硬件、数据采集、VLA算法、评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验以及具身产业讲解[12] - **课程硬件配套**:购买课程即赠送一套SO-100机械臂,包含示教臂和执行臂[17] - **讲师背景**:讲师为某机器人公司VLA高级研究员,拥有5年以上机器人行业实战经验,熟悉全栈技术,并在顶级期刊发表论文10余篇[20] - **面向人群**:包括正在具身领域求职者、VLA入门进阶者、相关领域学生、希望从传统CV/机器人/自动驾驶转行者,以及对领域感兴趣的其他人员[22] - **技术要求**:建议推理使用3060及以上显卡,训练使用2张以上3090ti显卡,学员可自租云服务器,并需具备一定的Python和PyTorch基础[22] - **课程收获承诺**:学员将掌握真机调试与数据采集、各类VLA算法真机部署、模型量化技术,对产业落地有清晰认识,简历可获得足够项目支撑,学完可达1-2年以上算法工程师经验水平[25] 课程时间安排 - **开课时间**:课程于2025年12月30日正式开课[23] - **课程章节时间表**: - 第一章:2025年12月30日[26] - 第二章:2026年1月7日[26] - 第三章:2026年1月10日[26] - 第四章:2026年1月25日[26] - 第五章:2026年1月30日[26] - 第六章:2026年2月6日[26] - 第七章:2026年2月16日[26] - 第八章:2026年2月21日[26] - 第九章:2026年2月25日[26]
全球强化学习+VLA范式,PI*0.6背后都有这家公司技术伏笔
具身智能之心· 2025-12-13 09:02
文章核心观点 - 视觉-语言-动作模型与在线强化学习结合是具身智能领域一个极具前景的技术方向,能够解决仅靠模仿学习导致的泛化能力不足问题,使机器人更鲁棒、更通用 [4][8][50] - 清华大学与星动纪元团队提出的iRe-VLA方法,通过“分阶段冻结参数”和“探索-内化”的循环迭代,有效解决了对大模型直接进行强化学习时面临的稳定性、算力与模型坍塌三大难题,为VLA+RL的落地提供了可行方案 [16][19][48] - 实验证明,iRe-VLA方法在仿真与真实机器人任务中均显著提升了任务成功率与泛化能力,例如将抓取新物体的成功率从35%提升至80%,并在未训练过的物体上实现从37%到61%的成功率提升 [38][43] VLA+RL的重要性与挑战 - **重要性**:仅靠监督微调的模仿学习在遇到未见情况或数据不完美时,机器人会不知所措,而在线强化学习允许机器人通过试错发现更优解,是实现机器人**非常鲁棒、持久工作**的关键 [8] - **挑战一:环境差异**:物理机器人任务周期长、奖励稀疏,与在离线数据集上训练的聊天机器人不同,学习更为困难 [12] - **挑战二:模型坍塌与不稳定性**:直接对数十亿参数的VLA模型进行在线强化学习,极易出现“灾难性遗忘”或训练崩溃,性能可能倒退 [12] - **挑战三:算力负担**:在本地对几十亿参数模型进行全量梯度更新,硬件要求极高,常超出机器人控制器算力极限 [12] 行业解决方案路径 - **第一种:外挂式干预**:训练额外价值函数或小型RL策略来引导冻结的VLA模型生成动作,VLA本身参数不变,**没有真正发生质变** [19] - **第二种:暴力美学**:直接使用PPO等算法全量微调VLA,勇气可嘉但易导致模型坍塌且算力要求高 [19] - **第三种:从探索到内化的循环**:以iRe-VLA为代表,利用监督微调将RL探索出的高价值行为稳定内化为模型的原生能力,是更可行的路径 [13][19] iRe-VLA方法核心架构与流程 - **模型架构**:VLA模型分为**VLM主干**和轻量级**Action Head**,采用LoRA技术避免全量微调 [17][18] - **第一阶段:在线强化学习**:**冻结VLM主干**,仅训练轻量级的Action Head和Critic Head,使训练稳定且计算量小,可在单张4090显卡上运行,让机器人安全探索 [21][26] - **第二阶段:监督学习**:**解冻VLM主干**,对整个模型进行全参数微调,训练数据混合了RL探索出的新成功轨迹与原始专家数据,防止灾难性遗忘,此阶段计算量大,通常在云端A100集群进行 [32] - **循环迭代**:两个阶段交替进行,形成“探索-内化”的持续学习循环 [30] 实验结果与分析 - **训练稳定性**:iRe-VLA训练曲线稳步上升,而标准PPO直接微调VLA则震荡剧烈,甚至性能下降,证明分阶段冻结参数至关重要 [35] - **仿真环境表现**:在MetaWorld和Franka Kitchen基准测试中,iRe-VLA在已学任务上表现大幅提升,例如将成功率从43%提升到83%,并能学会完全没见过的任务 [38] - **真实世界表现**:在Panda机械臂抓取新物体任务中,仅靠SFT的成功率约为35%,经iRe-VLA在线学习后,成功率**飙升到了80%**,且在完全未参与训练的第三类物体上,成功率也从37%提升至61%,显示出强大的泛化能力 [40][43] - **消融实验**:若第二阶段不解冻VLM,模型性能提升将遇到瓶颈,证明解冻大模型参数对掌握复杂技能和提升泛化性是必要的 [45] 方法的意义与优势 - **经济性**:巧妙分配算力,本地进行轻量级探索,云端进行重量级消化,符合实际部署场景 [54] - **持续学习**:使机器人能通过自我探索,在不遗忘旧技能的前提下,不断掌握新物体和新任务的操作技能 [54] - **行业影响**:iRe-VLA是**全球最早将在线RL引入VLA的工作之一**,被Physical Intelligence的π*0.6论文引用,代表了该方向的前沿进展 [19][50]
全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔
机器之心· 2025-12-12 11:41
文章核心观点 - 视觉-语言-动作模型与在线强化学习结合已成为具身智能领域极具前景的研究方向,该方法能有效克服单纯模仿学习的局限,使机器人通过试错持续进步并提升鲁棒性 [1][4] - 行业面临将强化学习直接应用于大型VLA模型的三大难点:物理环境探索困难、模型易出现灾难性遗忘与训练不稳定、以及巨大的算力负担 [5][6] - 清华大学与星动纪元团队提出的iRe-VLA方法,通过“分阶段冻结参数”与“探索-内化”循环迭代,为上述难题提供了稳定、经济且高效的解决方案,并在仿真与真实世界实验中验证了其显著优势 [10][13][22] 一、VLA+RL的重要性与背景 - 在具身智能领域,将视觉-语言模型应用于机器人底层控制形成VLA模型,当前主流方法是通过模仿人类专家数据进行监督微调 [2] - 仅靠模仿学习存在局限,当遇到未见情况或专家数据不完美时,机器人表现会受限,难以实现鲁棒、持久的工作 [4] - 在线强化学习允许智能体通过试错发现更优解,超越离线强化学习受限于演示数据质量的瓶颈,是提升VLA模型能力的关键 [4] 二、强化学习应用于VLA的难点 - **环境差异**:与在离线数据集上训练的大语言模型不同,机器人需在物理世界实时探索,且物理任务周期长、奖励稀疏,学习困难 [6] - **模型坍塌与不稳定性**:直接对数十亿参数的VLA模型进行在线强化学习,极易导致“灾难性遗忘”或训练崩溃,性能可能倒退 [6] - **算力负担**:在本地对大型模型进行全量梯度更新,硬件要求极高,通常超出机器人控制器的算力极限 [6] 三、行业解决方案与iRe-VLA方法 - 行业存在三种解决VLA强化学习困境的路径:外挂式干预、暴力美学式全量微调、以及从探索到内化的循环 [7][13] - iRe-VLA方法属于第三种路径,其核心是设计了一个两阶段循环迭代的学习流程,分而治之,动静结合 [10][22] - **模型架构**:VLA模型由负责理解与知识的VLM主干(大脑)和负责输出控制信号的轻量级Action Head(四肢)组成,并使用LoRA技术避免全量微调 [11][12] - **第一阶段(在线强化学习探索)**:冻结VLM主干参数,仅训练轻量级的Action Head和Critic Head,使训练稳定且计算量小,可在单张4090显卡上运行,让机器人探索并找到成功轨迹 [15][18] - **第二阶段(监督学习内化)**:解冻VLM主干,对整个模型进行全参数微调,训练数据混合新探索的成功轨迹与原始专家数据,有效防止灾难性遗忘,此阶段计算量大,通常在云端A100集群进行 [24] - **流程总结**:机器人先在“小参数模式”下大胆探索,找到方法后再在“全参数模式”下把经验固化到大脑中,循环往复 [22] 四、实验结果与分析 - **训练稳定性**:实验显示,直接用PPO算法微调VLA模型会导致成功率曲线剧烈震荡甚至性能下降,而iRe-VLA的曲线稳步上升,证明了分阶段冻结参数对稳定训练至关重要 [27] - **仿真环境表现**:在MetaWorld和Franka Kitchen基准测试中,iRe-VLA不仅在已学任务上表现更好(例如从43%提升到83%),还能学会完全没见过的任务 [30] - **具体数据对比**: - 在MetaWorld的Button-Press-new任务上,SFT策略成功率为0.56,PPO-Replay为0.80,iRe-VLA达到1.00 [31] - 在Franka Kitchen的Slide-door-open任务上,SFT策略成功率为0.86,PPO-Replay为0.96,iRe-VLA达到0.99 [31] - **真实世界挑战**:在抓取未见物体(如茄子、胡萝卜)的任务中,仅靠SFT的机器人成功率约35%,经过iRe-VLA在线学习后,成功率飙升到80% [32][34] - **泛化能力**:训练后的模型去抓取完全未参与训练的第三类物体,成功率也从37%提升到了61% [34] - **消融实验**:如果在第二阶段不解冻VLM主干,模型性能提升会遇到瓶颈,证明了解冻大模型参数对于利用其深层特征掌握复杂技能和提升泛化性是必要的 [35] 五、结论与意义 - **稳定性与经济性**:iRe-VLA方法解决了大模型直接进行强化学习容易训练崩溃的问题,并通过巧妙的算力分配(本地轻量探索、云端重量消化),符合实际部署场景 [37][42] - **持续学习能力**:该方法证明了机器人可以通过自我探索,在不遗忘旧技能的前提下,不断掌握新物体和新任务的操作技能 [42] - **行业影响**:星动纪元的iRe-VLA与海外的PI π*0.6等工作,共同揭示了VLA在线强化学习技术的发展前景,为行业指明了方向 [40]
效率提升25%,灵巧操作数采困境被「臂-手共享自主框架」解决
机器之心· 2025-12-11 18:00
文章核心观点 - 字节跳动Seed团队的研究通过提出“共享自主”框架,将人类操作员与AI系统的控制职责合理划分,显著降低了高质量机器人操作数据的采集难度和成本,为解决视觉-语言-动作模型训练的数据瓶颈提供了关键方案,并推动了灵巧操作技术向工业应用的迈进 [2] 技术体系与核心模块 - 研究构建了一个由四大核心模块组成的完整技术闭环,旨在高效采集高质量演示数据以训练通用的臂手协同VLA策略 [5][8] - **核心策略 DexGrasp-VLA**:这是一个专为灵巧手设计的多模态VLA模型,集成了语言指令、视觉、本体感知和关键的触觉反馈,能够实现根据物体形态动态调整握力的力适应性抓取 [9] - **共享自主框架**:该框架将控制任务按运动域拆分,人类通过VR遥操作控制机械臂(负责高层定位和避障),而DexGrasp-VLA自主控制灵巧手(负责精细抓握),从而大幅减轻操作员负担,高效采集高质量臂手协同数据 [12][14][15] - **臂手特征增强模块**:该模块采用三流架构(共享任务表示、手臂专用编码器、手部专用编码器),通过建模和融合臂与手在运动学上的差异特征,实现了更自然、更鲁棒的宏观-微观动作协调 [16][19] - **纠正性人机闭环机制**:当机器人操作失败时,人类操作员可立即接管并演示正确方法,系统将失败与纠正后的成功数据作为“难题案例”加入训练集,使策略能持续迭代优化,学会应对各种边缘案例 [20][21] 硬件配置与实验效果 - **硬件平台**:主要集成星动纪元星动XHAND1灵巧手(全直驱12自由度,指尖集成高分辨率触觉传感器)和UR3e机械臂,并使用3台RGB-D相机提供多视角视觉输入 [23][25] - **触觉感知的有效性**:星动XHAND1提供的触觉反馈是鲁棒抓取的关键,实验数据显示,在抓取超过50种日常物品的测试中:无触觉时成功率仅为21%;仅有触觉合力反馈时成功率提升至70%;结合合力反馈与空间触觉分布(120点阵列)时,成功率高达90% [25][27][29] - **臂手特征增强模块的有效性**:实验表明,使用该模块后,策略在星动XHAND1上的性能从88提升至95,在RY-H2灵巧手上从71提升至81,在相机被遮挡时从19大幅提升至58,证明了其对策略协调性和鲁棒性的显著提升 [30][31] - **算法与硬件的协同**:相比欠驱动的RY-H2手,算法能更充分地利用星动XHAND1全直驱设计的关节灵活性,实现更自然的协调动作 [30] 数据采集效率与应用前景 - **数据采集效率提升**:共享自主框架将灵巧操作高质量数据采集效率提升了25%,使单人每小时可采集更多数据,并将完整开发-部署周期压缩至一天以内,从根本上解决了VLA模型训练的数据瓶颈问题 [32][33] - **接近工业标准的性能**:研究在超过50种物体上实现了约90%的抓取成功率,这一性能水平推动了灵巧操作技术从概念验证向实际部署的关键跨越 [33] - **未来研究方向**:包括将框架拓展至物体重定向、精密插放等更复杂场景;探索更智能的多模态感知融合机制;以及借助强化学习实现更自主的错误识别与恢复,减少人工介入,向完全自主过渡 [36]
AD智驾的2025年:监管刹车、技术狂飙,“地大华魔”四雄争霸
36氪· 2025-12-11 17:55
行业政策与宣传规范 - 2025年春季,工信部明确要求不得进行夸大和虚假宣传,严格履行告知义务,并将“组合驾驶辅助”定为官方表述,导致车企宣传话术中“自动驾驶”一词基本消失,被“辅助驾驶”、“智驾辅助”等中性表述取代 [1][3] - 政策规范促使行业从技术狂欢转向务实发展,安全与责任成为核心,智能驾驶虚假宣传被严打 [1][3] 车企技术发展路径:进阶与普惠 - 行业技术演进呈现“进阶”与“普惠”两大关键词 [5] - 小鹏汽车作为“进阶”代表,在2025年推出第二代VLA大模型,通过拿掉“Language”中间转译环节,实现端到端直接生成,让机器直接理解物理世界底层规律 [6][7] - “普惠”方面,比亚迪在2025年2月推出“天神之眼”高阶智驾系统,其DiPilot 100(天神之眼C)纯视觉方案瞄准10万元人民币市场,提供高速NOA和自动泊车 [11] - 吉利在2025年3月发布千里浩瀚智驾系统H1到H9五个版本,最激进的H9方案在极氪9X上配备双Thor芯片、1400TOPS算力及5颗激光雷达,走量的银河系列则采用H3方案,在2025年第二季度末全面上车 [11] 国际竞争者角色转变 - 特斯拉在2025年已不再是中国智能辅助驾驶头部企业的“标准答案”,其角色转变为与国内同行并肩探索的同路人 [13][14] - 特斯拉在2025年完成了多项架构与算法关键迭代,并搭建起名为“神经世界模拟器”的闭环仿真体系,其技术路径核心逻辑与国内企业深耕的VLA模型、世界模型高度契合 [13][14] 主要智驾科技公司生态竞争(“地大华魔”) - **地平线**:在2025年技术生态大会上,与行业达成以安全为基石、拟人化交互及成本拐点源于软硬件双重驱动三大核心共识 [19] - 地平线通过征程6P和HSD产品推动城区NOA大规模普及,目标是将最好用的城区辅助驾驶杀到10万元级国民车型,其HSD已搭载于深蓝L06和奇瑞星途ET5等15万级车型 [21] - 截至2025年上半年,地平线在中国自主品牌辅助驾驶计算方案市场份额增长至32.4%,在中国自主品牌ADAS前视一体机市场份额增长至45.8%,蝉联双市场份额第一 [21] - **卓驭科技(大疆)**:在2025年9月推出“成行智驾2.5”系统,将“两段式”端到端技术推向更成熟阶段,是业内唯一能基于7V+32TOPS芯片实现城市NOA功能的企业 [22] - 卓驭科技海外市场取得突破,欧洲总部落户德国,其与大众联合研发的IQ.PILOT系统通过A-SPICE CL2认证,成为国内首个通过大众集团及合资方三方联合审核的智能驾驶供应商 [24] - 卓驭科技已服务10家主机厂及十几个汽车品牌,2025年10月起大规模推送城市NOA方案,并于8月在燃油车上实现高速NOA方案量产推送,客户包括大众、奥迪、捷途、奇瑞等 [24] - **华为**:在2025年4月发布乾崑智驾ADS 4.0,其“WE-WA模型”不依赖语言中介,实现对延迟和算力消耗的极致压缩 [25][26] - 华为通过“五界”(赛力斯、奇瑞、江淮、上汽、北汽)、“三境”(广汽启境、东风奕境、五菱华境)等广泛合作“收割”朋友圈,并为北汽极狐、阿维塔等多个品牌提供全栈解决方案,合作方还包括日产、奥迪等合资品牌 [28] - 截至2025年11月,华为辅助驾驶里程突破63.8亿公里 [28] - **Momenta**:作为第三方智驾供应商,采取广交朋友、开放生态的发展策略 [29] - 2025年,Momenta合作版图爆发式扩张,4月与奥迪达成合作,7月与宝马官宣联手,其辅助驾驶方案也应用于比亚迪、广汽埃安、奇瑞、上汽通用、一汽丰田、东风日产等多个品牌车型 [31] - Momenta提供灵活的定制化合作模式,在算法和硬件层面赋予车企高度自主权 [31] - 截至2025年12月,Momenta获得的车型定点数量已超160款,预计2025年底累计装车量达60万-70万辆,2026年有望突破200万辆,2028年目标攀升至1000万辆 [32] 技术普及面临的非技术挑战 - 技术的成熟催生了“辅助驾驶神器”灰色产业链,电商平台出现模拟“用户介入”的方向盘装饰环等商品,实现“智驾免提示”,使车辆在驾驶者双手离开方向盘时不触发报警 [33] - 辅助驾驶系统在处理常规场景上已接近好用,但导致了用户“滥用”风险,系统安全架构与用户行为之间的信任问题成为真正挑战 [34][35]