Workflow
模仿学习
icon
搜索文档
无需编写数千行代码 机器人观察人类动作就能学会摆放餐具
科技日报· 2026-02-16 09:22
核心观点 - 西班牙研究团队开发出新型家用服务机器人,通过观察人类动作学习复杂任务,无需传统数千行代码编程,标志着家用机器人技术的重要突破,未来有望在家庭环境中辅助日常任务[1] - 该技术突破呼应了社会应对人口老龄化的现实需求,能够安全、自然地协助日常生活的服务机器人,或将成为提升长者生活自主性与生活质量的重要技术支撑[2] 技术突破与实现路径 - 机器人采用“模仿学习”结合“高斯信念传播”数学框架的创新路径,通过人类示范教会机械臂基本动作,再通过算法实现双臂间持续的“隐形对话”以实现实时协调与防碰撞[2] - 该方法使习得的动作具备良好适应性,若目标物体位置偏移,机械臂能像橡皮筋一样平滑调整运动轨迹,同时保持动作核心特性,例如移动水杯时始终保持直立[2] - 工作流程分为感知、推理与行动三阶段:通过2D/3D激光传感器结合RGB-D摄像头感知环境、检测障碍并定位物体,再处理信息,最后生成协调的双臂动作指令[2] - 当前研究正进一步探索整合生成模型与人工智能技术,使机器人不仅能感知物体,更能理解使用场景与用户意图,从而适应动态家居环境[2] 产品功能与应用场景 - 研究以自主家用双臂操作器(ADAM)机器人为平台,目前能实现多种居家辅助功能,例如在指定时间为用户递送水杯或药品,协助取放外套或衣物,并完成基础的厨房整理与餐桌布置收拾工作[1] - 其设计目标主要是为老年人或需要生活协助的人群提供日常支持[1] - 机器人未来有望在家庭环境中流畅完成布置餐桌、收拾餐具、整理厨房及递送物品等日常辅助任务[1] 行业意义与发展前景 - 该突破标志着家用服务机器人的研发迈出重要一步[1] - 这项研究体现了机器人技术在复杂操作任务上的进展[2] - 随着老年人口比例上升与照护资源相对紧张,服务机器人市场存在明确的社会需求与发展潜力[2]
强化学习,正在决定智能驾驶的上限
36氪· 2026-02-10 12:45
文章核心观点 - 智能驾驶行业正从概念验证阶段进入工程化落地阶段 技术路径的博弈结果取决于技术范式、工程约束与现实场景的融合[1] - 行业共识是强化学习正从“技术选项”变为“必选项” 被认为是决定智能驾驶能力上限的底层能力[7][9] - 智能驾驶的训练体系正从依赖模仿学习转向结合强化学习 模仿学习确保安全基础 强化学习实现策略进化与能力提升[21][25] - 强化学习的有效应用高度依赖精心设计的奖励函数和高质量的世界模型 这两者是提升系统“含模量”和智能水平的关键[30][41][49][60] 技术路径演进 - 行业早期依赖模仿学习 通过让AI学习人类驾驶数据来快速获得稳定、安全的驾驶能力 但上限受限于数据质量且难以应对未知场景[11][14][16] - 强化学习通过试错和最大化长期奖励进行学习 能让AI超越人类经验 应对复杂博弈和极端长尾场景 是能力进阶的路径[17][19][20] - 端到端模型为强化学习铺平了道路 它将感知、理解、控制打包 让AI能完整接管驾驶任务 两者常组合使用[19] - 当前主流训练范式是结合两者:先用模仿学习将模型拉到“能安全跑”的水平 再用强化学习进行精修和策略提升[24][25] 强化学习的核心机制:奖励函数 - 奖励函数是将“开得好”具象化为机器可理解分数的关键 它定义了AI的驾驶风格与水平[30][31] - 行业普遍围绕五个核心指标设计奖励函数:安全、合规、舒适、效率、稳定性 其中安全是红线指标且权重最高[32][33][36] - 奖励设计需在矛盾目标间找到精妙平衡 例如安全与效率 并通过提供多种驾驶模式来满足用户个性化需求[32][34] - 奖励函数设计是“代码的艺术” 需避免AI“刷分” 通过过程密集拆解和分层控制来引导正确行为 并可能引入人类反馈偏好[37][38][39][41] 强化学习的进阶:世界模型 - 强化学习在智能驾驶中的工程应用可分为三层:调参型、策略型、以及基于世界模型的强化学习[43] - 世界模型是一个高度拟真的虚拟现实系统 它为强化学习提供了可信的“试错”环境 能大幅提升其训练效果和上限[48][49][53] - 世界模型让AI具备长时推演能力 可以训练长期最优策略 而不仅仅是当前最优解[50] - 世界模型与强化学习结合能形成进化飞轮:真实道路数据、世界模型造场景、强化学习练策略、实车验证 形成高速迭代循环[51][52] 行业竞争格局与关键变量 - 头部企业如理想、小鹏、Momenta等都在将资源向强化学习路线倾斜[5] - 华为、文远知行、英伟达等头部玩家正将世界建模与强化学习深度耦合 以构建更强大的智能系统[54] - 竞争维度正在变化:在高质量世界模型与生成式仿真加持下 合成数据能力提升 原始数据的边际价值下降 对世界规律的建模能力变得更为稀缺[56][57][58] - 系统“含模量”成为关键指标 即系统能力有多少是模型自我演化而来 世界模型与强化学习的耦合旨在提升“含模量”[60][61][62]
AI赛车开创世界纪录背后的“弯道”与“换道”
新浪财经· 2026-01-24 13:10
文章核心观点 - 清华大学极限竞速战队的人工智能赛车在2025年Hitch Open世界AI竞速锦标赛总决赛中,于湖南张家界天门山赛道以16分10秒838的圈速完赛并夺得总冠军,创造了AI自动驾驶赛车挑战极限山地赛道的世界纪录 [1] - 此次赛事是对自动驾驶自主技术的一次极限测试和成功验证,其背后的一系列关键技术攻关与创新路径探索,为行业提供了原创性技术突破方案,并展现了产学研结合的价值 [3][4][5] 赛事背景与挑战 - 总决赛赛道为湖南张家界天门山盘山公路,全长10.77公里,垂直落差1100米,拥有99道急弯 [1] - 赛道构成“复合极限”测试场:山体遮挡导致卫星定位信号频繁中断;陡坡与急弯密集交替,要求AI在毫秒内完成连续精准决策;路面湿滑、隧道明暗急剧变化对传感器感知和执行器响应提出苛刻要求 [3] 关键技术攻关与创新 - 团队提出“跑哪加载哪”思路,创新开发局部地图动态加载算法,解决了全量加载三维点云地图导致定位频率骤降的问题,实现了超大场景下的实时高精位姿估计 [3] - 通过车云协同、虚实联合的方式采集数据,将每道弯的切入角度、道路坡度、地面摩擦系数等融入模型,使赛车能在小偏差范围内平顺过弯 [3] - 为应对山区信号遮挡,团队开发了感知-定位融合技术,使车辆可依靠自身传感器实现高实时、高精度的航迹推算 [5] - 针对极端场景开发的端到端决策控制算法,能够提升车辆在爆胎、路面突然湿滑等危急情况下的稳定控制能力 [5] 技术路径与行业方案 - 自2018年起,清华大学科研团队前瞻性探索以强化学习为核心的端到端自动驾驶新路径,确立了以仿真数据为主、实车数据为辅,强化学习与模仿学习相结合的训练路径 [4] - 与当时行业主流依赖海量实车数据的模仿学习方案相比,该路径显著降低了训练成本,并使模型具备通过自主探索持续进化的更高潜力 [4] - 基于此路径,团队推出了国内首套全栈神经网络化的端到端自动驾驶系统,为行业提供了原创性技术突破方案 [4] 现实价值与未来展望 - AI算法必须置于真实甚至极限场景中才能充分检验其有效性和鲁棒性,“天门山经验”极具现实价值 [5] - 在极限道路工况下,AI的感知、决策、控制能力与人类最高水平仍有显著差距,这为未来的教学实践、科技创新和人才培养提供了广阔探索空间 [5] - 将“产学研用”喻为一条河流,高校的前沿探索与人才孵化如同上游活水,源源不断地为中下游产业输送创新技术和新鲜血液 [5]
李弘扬团队PlannerRFT:扩散轨迹规划新方案,提升复杂驾驶场景性能(同济&港大)
自动驾驶之心· 2026-01-21 17:16
文章核心观点 - 由港大OpenDriveLab、同济大学等团队提出的PlannerRFT框架,是一种用于基于扩散模型的自动驾驶轨迹规划器的闭环、样本高效强化微调框架,旨在解决现有方法在强化微调中探索能力不足的问题,从而提升规划器的闭环性能、安全性和鲁棒性 [2][5][14] - 该框架通过策略引导去噪机制,实现了多模态和场景自适应的轨迹采样,为强化学习优化提供了更有效的探索信号 [5][8][13] - 为支持大规模并行训练,团队开发了名为nuMax的GPU加速仿真器,其轨迹推演速度较原生nuPlan仿真器快10倍 [2][6][24] - 在nuPlan基准测试上的实验表明,PlannerRFT取得了最先进的性能,特别是在包含动态交互的复杂场景中,规划安全性得到显著提升 [2][9][35] 背景与问题定义 - 基于扩散模型的规划器已成为生成类人驾驶轨迹的主流方法,但通过模仿学习预训练的模型存在分布偏移和目标错位问题,限制了其在真实场景中的鲁棒性 [4] - 近期研究尝试将强化微调融入扩散规划器以提升性能,但原生扩散模型存在模态坍缩问题,导致在去噪过程中生成的轨迹缺乏多样性,难以进行有效的多模态探索,阻碍了强化学习的优化效率 [4][5] - 有效的强化微调需要规划器具备两种关键能力:多模态(生成多样化操作假设)和适应性(根据场景自主调整探索分布)[4] PlannerRFT框架设计 - **双分支优化策略**:框架采用“生成-评估”范式,在保持原始推理流程不变的前提下,通过一个专门的探索策略模块自适应地引导去噪过程,同时利用分组相对策略优化微调轨迹分布 [2][13] - **策略引导去噪**:为生成多模态轨迹,引入了基于能量的分类器引导机制,通过注入残差偏移量,使模型能在参考轨迹附近生成多样化轨迹,引导信号分解为横向和纵向两个正交分量进行解耦控制 [8][15][17] - **探索策略设计**:探索策略模块基于驾驶场景上下文和参考轨迹,学习预测用于调节横向和纵向引导尺度的Beta分布参数,实现场景自适应的轨迹采样 [18][19] - **轨迹采样**:在强化微调阶段,从探索策略学习到的分布中重复采样引导尺度,每个采样对对应一种独特的驾驶模态,从而生成多样化的轨迹集合用于优化 [20] 训练基础设施与优化方法 - **nuMax仿真器**:为加速训练,开发了基于Waymax的GPU并行仿真器nuMax,其仿真速度较原生nuPlan仿真器快10倍,支持高通量并行轨迹推演,这对实现规模化强化学习训练至关重要 [6][24] - **三阶段训练流程**:包括模仿学习预训练、模仿学习微调和强化学习微调,强化微调基于近端策略优化和分组相对策略优化实现 [6] - **生存奖励机制**:为在复杂场景中稳定优化,引入了生存奖励,对非终端轨迹片段的奖励进行累积,鼓励规划器延迟失效事件的发生,从而提升长时域可行性和探索效果 [9][27] - **最佳实践**:包括采用5步DDIM去噪以增强探索随机性、将探索策略初始化为生成零均值引导尺度、以及使用包含适度比例复杂场景的平衡数据集进行微调 [30][41] 实验结果与性能分析 - **主要性能提升**:在nuPlan基准测试中,与预训练的Diffusion Planner相比,PlannerRFT在反应式交通设置的Val14基准测试上得分提升1.66分,在Test14-hard基准测试上提升2.99分 [35] - **与基线对比**:PlannerRFT在四个基准测试中的三个取得了最佳整体性能,特别是在包含动态、高交互场景的Test14-hard非反应式数据集上,性能显著优于其他现有最优规划器 [36] - **行为模式演化**:强化微调使规划器呈现出与模仿学习不同的行为模式,通过奖励导向优化,驾驶策略逐渐调整为更安全、高效的机动动作,例如从发生碰撞到保持安全,再到执行果断且安全的变道 [37] - **探索策略有效性**:消融实验表明,与无引导、均匀分布采样或固定Beta分布采样相比,PlannerRFT提出的策略引导去噪在提升轨迹多样性的同时,实现了更高的闭环性能得分和更稳定的训练过程 [39][40] - **微调数据影响**:实验发现,仅在碰撞场景上训练会导致性能下降,而在所有简单场景上训练提升有限,最佳结果来自于在结合了碰撞和低得分场景的平衡数据集上进行微调 [41] - **关键参数影响**:奖励公式方面,生存奖励优于终端奖励;引导偏移量方面,适度的偏移量能在探索与利用之间取得最佳平衡 [43][46][47]
你的模型真的能打吗?操作任务的长尾场景评测来了
具身智能之心· 2026-01-20 08:33
文章核心观点 - 上海交大等研究团队提出GM-100基准测试,旨在解决当前机器人学习领域数据集任务设计单一、评估标准不统一的问题,通过100项多样化、具挑战性的任务全面评估机器人智能体能力,并推动行业向任务多样化与复杂化发展 [1][4] 现有机器人数据集与评估的局限性 - 当前主流数据集如Open X-Embodiment整合了22种机器人、160,266项任务,Agibot收集了超过100万条轨迹,RoboCOIN为421项任务提供了18万余条演示数据,但任务设计多集中于“拾取并握持”等常见行为,缺乏对复杂和长尾任务的覆盖 [3] - 任务设计的单一化导致训练出的模型存在显著偏差,作为预训练模型时,在真实场景中的适用性受限 [3] - 多数研究在提出新方法时,仅在少数常见任务上测试,且缺乏统一标准,使得不同研究成果之间难以进行公平对比 [3] GM-100基准测试的设计理念与方法 - GM-100包含100项精心设计的任务,旨在涵盖各类交互场景与长尾行为,其设计基于对现有任务设计的系统性分析与扩展,并结合了人类-物体交互基元与物体功能特性的相关洞见 [1][4] - 任务设计不以真实世界任务的实用性为标准,而是将物理常识与底层操作知识作为生成与筛选任务的唯一准则,以避免人为偏差 [4] - 设计过程首先收集并分析现有研究(如Agibot、Open X-Embodiment)的任务,去重分类后,参考HAKE、PaStaNet、OCL等人类-物体交互研究的洞见,利用大型语言模型(如Qwen3)自动生成大量候选任务,再通过模型评分和五名人类专家筛选,最终确定高质量、可执行的任务 [9][10] GM-100的数据收集与实验设置 - 通过遥操作方式在GM-100任务上收集了一个中型数据集,包含超过13,000条轨迹 [11][13] - 数据收集在两款不同的机器人平台(Agilex Cobot Magic和Dobot Xtrainer)上进行,两款平台具有不同的运动学结构、双臂设计和主相机视角,以提供多样化数据 [14] - 对于每个任务,首先收集100条具有不同初始条件和设计扰动的轨迹,以确保多样性,随后再收集30条分布相似的轨迹用于评估过程中的测试用例对齐 [17] - 为验证任务的可行性和挑战性,在100个任务上对多个基线模型进行了评估,包括DP以及多个视觉-语言-动作模型,VLA类模型基于每个任务收集的100条轨迹进行微调 [18] GM-100的评估结果与特性 - 实验结果表明,GM-100的任务具备可执行性以及足够的挑战性,能够有效区分当前视觉-语言-动作模型的性能 [2][4] - 在Xtrainer平台的实际场景性能评估中,不同模型的平均成功率(SR)在1.6%至53.9%之间,部分成功率(PSR)在4.4%至32.1%之间,整体成功率较低,凸显了任务的固有挑战性 [20] - 评估采用了成功率、部分成功率和动作预测误差(均方误差和L1损失)等多个指标,以全面反映模型性能 [22]
中游智驾厂商,正在快速抢占端到端人才......
自动驾驶之心· 2026-01-16 10:58
行业趋势与市场现状 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播 [1] - 行业前沿技术发展放缓,业内量产方案趋同,整体呈现技术下沉趋势 [2] - 端到端等前沿技术的大规模量产起点预计在2026年 [2] - 二十万以上的乘用车年销量约700万辆,但头部新势力销量占比不足三分之一,搭载端到端技术的量产车型占比更低 [2] - 随着L3级自动驾驶法规推进,中游厂商面临紧迫的技术升级压力 [2] 技术发展路径与需求 - 端到端技术的成熟被视为开启更大规模量产的关键 [2] - 近期众多公司算法负责人迫切希望了解端到端所需的技术能力 [2] - 在端到端时代,感知任务合并与规控算法学习化已成为绝对主流 [7] - 如何高效合并感知任务、设计学习化的规控模块成为各大公司的核心必备技能 [7] 端到端技术架构与方案 - 主流技术架构分为两段式与一段式端到端算法 [8][9] - 两段式框架涉及感知与规划控制(PNC)间的信息传递建模,存在信息损失 [8] - 一段式框架可实现信息无损传递,性能通常优于两段式方案,代表方法包括基于VLA和基于Diffusion的方法 [9] - 量产落地需包含后处理的兜底逻辑,例如时空联合规划等轨迹平滑优化算法,以保证输出轨迹的稳定可靠 [13] 关键赋能技术与应用 - 导航信息在自动驾驶中起引导、选路、选道的关键作用,其地图格式、编码与嵌入方式是技术重点 [10] - 仅靠模仿学习存在局限,需结合强化学习(RL)使机器学习因果关系,实现更好的泛化能力 [11] - 轨迹输出优化涉及模仿学习与强化学习的结合使用,具体算法包括基于扩散模型和基于自回归的算法 [12] 量产实践与经验 - 真正的量产落地需从数据、模型、场景、规则等多视角综合施策,以快速提升系统能力边界 [14] - 课程内容聚焦量产实践,涵盖从架构概述、具体算法、导航应用、RL训练到轨迹优化及兜底方案的完整链条 [7][8][9][10][11][12][13][14]
一直霸榜的pi0.5,被中国的模型干下来了!!!
具身智能之心· 2026-01-12 08:03
模型性能突破 - 千寻智能团队研发的Spirit v1.5模型在RoboChallenge评测榜上超越此前霸榜的Pi0.5,以66.09的总分和50.33%的成功率夺得总榜第一,而Pi0.5的分数和成功率分别为61.84和42.67% [2][4] - 这是中国具身智能模型首次在性能上超越海外最先进的开源模型,标志着中国在该领域进入全球领先阶段 [2] 传统数据方法的局限性 - 依赖高度“干净”的演示数据是模仿学习的弊病,其对应高昂成本,且存在多样性低和可扩展性受限的问题 [5] - 数据多样性低:采集过程遵循固定指令,导致数据缺乏多样性,例如“擦桌子”的数据集无法让模型学习处理打滑、杂乱表面或光线变化等现实复杂性 [5] - 可扩展性受限:每个新任务都需要精细的设计和质量控制,消耗大量工程资源,限制了数据采集的体量和模型可获得的机器人经验 [5] Spirit v1.5的核心技术特点 - 模型训练不依赖高度精选的“干净”演示数据,避免了因数据过于理想化而限制机器人在开放世界中的泛化能力 [6][7] - 在预训练阶段引入了开放式、多样化的数据采集范式,数据采集以“完成有意义目标”为导向,允许操作中自然串联多个子任务,使模型能接触到遮挡、失败恢复等真实世界复杂性 [8] - 这种基于多样化数据的预训练范式,代表了机器人学习领域摆脱对高度精选数据集依赖的根本性转变 [14] 多样化数据的训练优势 - 消融实验表明,在相同数据规模下,基于多样化数据预训练的模型在新任务上的迁移效率明显高于基于传统演示数据训练的模型,达到相同性能所需的计算资源显著减少 [9] - 多样化数据预训练的模型比干净数据训练的模型具有更快的收敛速度和更好的验证误差 [12] - 模型迁移效率随多样化数据量的增加呈正相关,数据规模扩大能持续降低模型在新任务上的验证误差,表明任务多样性比单任务演示数量更为关键 [13][16] - 使用高多样性、弱控制的数据进行预训练不仅可行,而且显著优于学术界常见的利用“干净”数据的做法 [13]
一个近300篇工作的综述!从“高层规划和低层控制”来看Manipulation任务的发展
具身智能之心· 2026-01-06 08:32
文章核心观点 - 机器人操纵作为具身智能的核心难题,正因大型基础模型的出现而迎来变革,其技术框架可统一为“高层规划”与“低层学习型控制”两大模块的协同体系 [1] - 当前技术突破在于基础模型提升了机器人的感知与语义泛化能力,使其能基于自然语言指令在非结构化环境中工作,但规模化落地仍面临通用架构缺失、数据瓶颈、物理交互不足及安全协作等核心挑战 [1][23][26] - 未来研究方向聚焦于构建通用机器人架构、破解数据困境、强化多模态物理交互以及保障安全协作,以推动机器人操纵从实验室走向真实复杂场景 [30][31] 高层规划:任务解构与决策引导 - 高层规划负责明确动作意图、时序组织及环境注意力分配,其核心是融合多模态信息解决“做什么”和“按什么顺序做”的问题,包含六大核心组件 [4] - **基于LLM的任务规划**:以大型语言模型为核心实现自然语言到任务步骤的映射,早期方法如SayCan选择可执行技能,进阶方案如Inner Monologue引入闭环反馈实现动态调整,LLM+P和REFLECT强化了长时程推理与失败处理 [5] - **基于MLLM的任务规划**:联合视觉与语言进行推理,PaLM-E通过机器人具身数据与视觉语言模型共训练实现端到端任务推理,VILA直接复用GPT-4V能力无需微调,机器人专用MLLM如RoboBrain、Gemini Robotics在具身基准测试中表现优于通用模型 [8] - **代码生成**:将规划转化为可执行程序以弥补语言计划的精度缺陷,Code as Policies通过暴露API让LLM生成控制代码,Demo2Code、SHOWTELL支持从演示中提炼程序,Statler、HyCodePolicy通过维护世界状态提升闭环控制鲁棒性 [9] - **运动规划**:利用LLM或视觉语言模型生成连续运动目标以衔接高层推理与低层轨迹优化,VoxPoser构建语言-视觉条件的3D价值图提供优化目标,CoPa、ManipLLM融入物理先验确保可行性,ReKep通过关系关键点实现自主轨迹生成 [10] - **可用性学习**:聚焦“物体能做什么”,从几何、视觉、语义及多模态四个维度学习物体的交互可能性,为操纵决策提供先验知识 [11] - **3D场景表征**:将环境感知转化为结构化动作提案,通过高斯splatting实现可编辑的3D场景表示支持抓取候选生成,借助神经描述场等隐式表征编码几何与语义信息,实现少样本姿态迁移等任务 [12] 低层学习型控制:动作生成与执行落地 - 低层控制负责将高层规划转化为精准物理动作,解决“怎么做”的问题,从学习视角可拆解为学习策略、输入建模、潜态学习、策略学习四大核心组件 [14] - **学习策略**:定义技能获取的核心范式,主要分为三类:强化学习(包括无模型方法如QT-Opt、PTR和有模型方法如Dreamer、TD-MPC)、模仿学习(包括基于动作的模仿如行为克隆和基于观察的模仿)以及辅助任务学习(如世界建模和目标提取) [16][18] - **输入建模**:定义多模态感知的融合方式,主要包括:视觉-动作模型(基于2D视觉如Diffusion Policy或3D视觉如RVT)、视觉-语言-动作模型(整合语义时空信息,如RT-2、OpenVLA、SpatialVLA)以及触觉/力/音频等额外模态(如T-DEX融合触觉信号提升接触-rich操纵的鲁棒性) [19][20] - **潜态学习**:负责从输入数据中获取鲁棒通用的表征并优化其向动作的解码,包括在通用数据上预训练视觉编码器,以及将动作抽象为离散token(如VQVLA)或连续向量(如MimicPlay、LAD)以平衡泛化性与执行精度 [21][24] - **策略学习**:定义将表征解码为可执行动作的模型架构,主流范式包括:结构简单的MLP-based策略、利用注意力建模时序依赖的Transformer-based策略(如ACT)、通过迭代去噪生成多模态轨迹的扩散策略以及提升推理速度与平滑度的流匹配策略 [25] 核心挑战与未来方向 - **通用架构缺失**:现有方法多针对特定任务或机器人形态,缺乏能适配多样模态、载体及任务的通用基础模型,且长时程执行中易出现误差累积,难以维持稳定表现 [26] - **数据与仿真瓶颈**:真实世界机器人数据采集成本高、规模有限,而仿真环境与真实场景存在差异,导致模型迁移性能不佳,缺乏高效的数据循环机制 [27] - **多模态物理交互不足**:当前方法以视觉为中心,对触觉、力等物理交互信号的融合不够充分,难以应对可变形物体、复杂材料等接触动力学主导的场景 [28] - **安全与协作问题**:在人机共存环境中,现有方法在满足内在安全约束、意图推理与故障恢复能力上仍有欠缺 [29] - **未来研究方向**:针对挑战明确了四大重点:构建支持灵活模态接口与载体适配的通用“机器人真脑”架构;建立自主数据采集与提炼的“数据飞轮”并提升仿真保真度;融合触觉、听觉等多模态信号以强化物理交互;设计内在安全的控制策略并建立故障恢复机制,采用“学习+经典控制”的混合范式保障可靠性 [30]
万字长文,VLA的架构和模型还有什么痛点?
具身智能之心· 2025-12-30 09:11
文章核心观点 本次圆桌讨论聚焦于具身智能领域的视觉-语言-动作模型,与会专家普遍认为当前VLA的总体架构已趋于标准化和模块化,但模型的泛化能力与落地应用之间仍存在显著差距。未来发展的关键驱动力将来自数据、3D表征学习、强化学习与模仿学习的结合,以及感知与控制模块的逐步统一。 VLA的架构与模型现状 - 当前VLA的总体架构已相对收敛,形成了一种标准范式,即以视觉语言模型为基座,嫁接一个动作输出模块 [14][16] - 尽管架构趋同,但核心差异并非架构本身,而在于数据驱动 [14] - 当前从业者的工作多是在此标准框架下进行“小修小补”,例如引入触觉、记忆等新模块 [15] - 从实际表现看,VLA已能学习叠衣服等长程复杂任务,比去年进步明显,但其泛化性能尚不足以支撑落地 [16] VLA当前痛点与挑战 - 模型将VLM的2D图像与文本特征强行映射到3D动作空间,导致泛化性损失 [17] - VLA的硬件和数据可能成为限制,使精细化操作难以实现 [13] - 当前开源的VLA架构同质化严重,但尚不能确定这就是最佳架构,未来可能有更好的架构出现 [18] - VLM基座模型对3D物理世界的理解非常不充分,缺乏精准的空间grounding能力 [49] VLA未来可能的发展方向 - **3D表征学习**:让特征从2D更好地迁移到3D,利用3D预训练模型提升泛化性和性能 [17][43] - **训练范式创新**:结合强化学习与模仿学习 [43][45]。模仿学习效率高,可完成80%到90%的任务,而强化学习能处理失败数据并激发更高智能 [46] - **与世界模型结合**:使模型具备预判和脑补未来的能力,而不仅是基于当前时刻预测动作序列 [50] - **模块化与系统整合**:VLA作为提供先验知识的基座,需要与世界模型、RL等多种技术点在系统中协同安排,共同解决问题 [48][50] 感知与控制的统一路线 - 从长远目标看,感知与控制最终会趋向统一,形成一个“大一统”的端到端模型 [22][27][35] - 但在实现路径上,由于有大量迫切的现实问题需要解决,目前仍需分模块研发,例如导航场景仍需高精度的专用感知模型 [23][27] - 通过先进行模块化的端到端探索,积累各子领域的经验,才能最终迈向统一 [24][27] - 即使在实现大一统模型后,为建立安全互信和提供策略兜底,保留部分模块化输出(如OCC)仍有必要 [36] 自动驾驶经验对具身智能的借鉴 - 自动驾驶被视为具身智能的一个特殊场景,其完整的技术发展脉络(从模块化到端到端)对具身领域有重要参考价值 [34] - 自动驾驶领域将感知与控制结合后,解决了拟人化和处理复杂长尾案例的难题,这同样适用于具身智能 [34] - 具身智能可以直接对标自动驾驶的最新技术,但因其要求完全自动化,对规则和可解释性的需求可能比自动驾驶更严格 [38] 强化学习在新时代的角色 - 大模型的出现为强化学习提供了强大的起点,使其能够利用大规模算力,进入新的发展阶段 [31] - 强化学习作为一种工具,其算法并未收敛,需要针对不同任务(如数字空间推理与物理空间学习)开发不同的高效方法 [30] - 在具身智能产品化或追求AGI的路径上,不能只专注于强化学习,而需要更全面的知识面,整合模仿学习、VLA基座等多种范式 [46]
强化学习应用在自动驾驶中的一些思考
自动驾驶之心· 2025-12-23 08:53
文章核心观点 - 文章深入解读了Waymo在ECCV上发表的一篇关于在自动驾驶轨迹规划任务中应用强化学习进行微调的论文,认为该方法逻辑通顺、通用性强,为解决主流模仿学习方法在开环训练中存在的因果不一致、难以处理分布外状态等问题提供了一个有效思路,其核心在于通过预训练结合强化学习微调的两阶段方法,在无需高保真仿真环境的情况下实现闭环训练,从而提升智能体行为的合理性与安全性[3][4][14] 方法背景与问题 - 主流的基于学习的规划模块多采用模仿学习方法,进行开环训练,即在服务器训练后部署到车端运行,这种模式下,车辆在实车测试中一旦进入不合理状态很难自行纠正,增加数据量或扰动初始状态只能缓解但不能根治分布外问题[3] - 许多模仿学习方法采用单帧感知信息结合多秒真实轨迹的组合进行训练,若感知范围有限或远端感知不准,会导致因果不一致的问题,例如真实轨迹在远端无感知道路处转弯,而当前帧感知无法覆盖,此类混乱数据会误导网络学习[7] 提出的解决方案与模型结构 - 文章提出的方法采用预训练与强化学习微调相结合的两阶段训练方式,其网络结构沿用了Waymo之前的MotionLM模型,采用自回归方式输出轨迹,在推理阶段通过循环依次输出自车与交通参与者的动作,从而构成完整轨迹并确保因果关系一致[4] - 该模型同时输出自车与交通参与者的动作,这本身构成了一个简易版的世界模型,网络输入采用以场景为中心的编码方式,例如对于输出6秒轨迹的任务,静态信息是6秒内信息的汇总,而非仅当前帧,这能确保在推演过程中车辆不会驶出感知道路范围[4][6] 训练流程与奖励函数 - 预训练阶段使用因果掩码拟合真实轨迹,动作定义为横纵向加速度及一个13x13的空间网格,强化学习微调阶段则使用简单的运动学方程进行位置更新[8] - 强化学习阶段的奖励函数设计简洁,包含两部分:拟合真实轨迹的奖励和碰撞惩罚,具体公式为 $$r_{t,i}=-||P o s_{t,i}-G T_{t,i}||_{2}-\lambda C o l l_{t,i},$$,这种组合被认为能兼顾效率与安全性,且拟合奖励能有效防止训练崩溃[11] - 奖励值在批次维度和所有时间步上进行标准化,公式为 $$R_{t,i}=(R_{t,i}-Mean(R))/Std(R)$$,这种方法省略了评价者网络,类似于GRPO的方式,并采用策略梯度进行更新,作者认为若在采样轨迹范围内标准化会更精确,但可能因计算量而未采用[13] 方法优势与行业意义 - 与在损失函数中添加碰撞、效率等辅助损失项的模仿学习方法相比,将类似约束转化为奖励函数能带来更好效果,因为奖励通过提升特定决策模态的概率来间接优化,而非直接作用于轨迹形态,可避免导致轨迹扭曲、摆动或加减速顿挫等问题[14] - 强化学习的核心价值在于闭环学习,即使使用较小但难度较高的数据集进行微调,也能显著提升模型能力,该方法参考了大语言模型中强化学习微调的思路,指出拥有真正的世界模型是实现物理人工智能的关键路径[14] - 该方法的一大优势是思路易于借鉴和复现,且不需要依赖高保真的仿真环境,为行业提供了一种通用性强的训练范式[4][13]