模仿学习
搜索文档
AI赛车开创世界纪录背后的“弯道”与“换道”
新浪财经· 2026-01-24 13:10
中新社记者 曾玥 湖南张家界天门山有一条全长10.77公里、垂直落差1100米、拥有99道急弯的盘山公路。2025年,Hitch Open世界AI竞速锦标赛总决赛在此举行,清华大学极限竞速战队的人工智能(AI)赛车以16分10秒838的 圈速完赛并夺得总冠军,创造了AI自动驾驶赛车挑战极限山地赛道的世界纪录。 谈及这场AI竞速的"开山之战",清华大学车辆与运载学院、人工智能学院教授李升波近日接受中新社记 者专访时说,"过好每一道弯"的意义远超赛事本身。 中新社北京1月24日电 题:AI赛车开创世界纪录背后的"弯道"与"换道" 2025年10月,清华大学极限竞速战队队员于天门山赛道合影。(清华大学车辆与运载学院供图) 作为竞赛团队的核心指导教师,李升波表示,天门山赛道是一个"复合极限"测试场:山体遮挡导致卫星 定位信号频繁中断,传统方式极易失效;陡坡与急弯密集交替,要求AI在毫秒内完成减速、转向、加 速的连续精准决策;加之路面湿滑、隧道明暗急剧变化,对传感器的稳定感知和执行器的快速响应提出 苛刻要求。 面对挑战,清华团队进行了一系列关键技术攻关。备赛初期,赛车曾因全量加载三维点云地图导致定位 频率骤降,过弯时偏 ...
李弘扬团队PlannerRFT:扩散轨迹规划新方案,提升复杂驾驶场景性能(同济&港大)
自动驾驶之心· 2026-01-21 17:16
文章核心观点 - 由港大OpenDriveLab、同济大学等团队提出的PlannerRFT框架,是一种用于基于扩散模型的自动驾驶轨迹规划器的闭环、样本高效强化微调框架,旨在解决现有方法在强化微调中探索能力不足的问题,从而提升规划器的闭环性能、安全性和鲁棒性 [2][5][14] - 该框架通过策略引导去噪机制,实现了多模态和场景自适应的轨迹采样,为强化学习优化提供了更有效的探索信号 [5][8][13] - 为支持大规模并行训练,团队开发了名为nuMax的GPU加速仿真器,其轨迹推演速度较原生nuPlan仿真器快10倍 [2][6][24] - 在nuPlan基准测试上的实验表明,PlannerRFT取得了最先进的性能,特别是在包含动态交互的复杂场景中,规划安全性得到显著提升 [2][9][35] 背景与问题定义 - 基于扩散模型的规划器已成为生成类人驾驶轨迹的主流方法,但通过模仿学习预训练的模型存在分布偏移和目标错位问题,限制了其在真实场景中的鲁棒性 [4] - 近期研究尝试将强化微调融入扩散规划器以提升性能,但原生扩散模型存在模态坍缩问题,导致在去噪过程中生成的轨迹缺乏多样性,难以进行有效的多模态探索,阻碍了强化学习的优化效率 [4][5] - 有效的强化微调需要规划器具备两种关键能力:多模态(生成多样化操作假设)和适应性(根据场景自主调整探索分布)[4] PlannerRFT框架设计 - **双分支优化策略**:框架采用“生成-评估”范式,在保持原始推理流程不变的前提下,通过一个专门的探索策略模块自适应地引导去噪过程,同时利用分组相对策略优化微调轨迹分布 [2][13] - **策略引导去噪**:为生成多模态轨迹,引入了基于能量的分类器引导机制,通过注入残差偏移量,使模型能在参考轨迹附近生成多样化轨迹,引导信号分解为横向和纵向两个正交分量进行解耦控制 [8][15][17] - **探索策略设计**:探索策略模块基于驾驶场景上下文和参考轨迹,学习预测用于调节横向和纵向引导尺度的Beta分布参数,实现场景自适应的轨迹采样 [18][19] - **轨迹采样**:在强化微调阶段,从探索策略学习到的分布中重复采样引导尺度,每个采样对对应一种独特的驾驶模态,从而生成多样化的轨迹集合用于优化 [20] 训练基础设施与优化方法 - **nuMax仿真器**:为加速训练,开发了基于Waymax的GPU并行仿真器nuMax,其仿真速度较原生nuPlan仿真器快10倍,支持高通量并行轨迹推演,这对实现规模化强化学习训练至关重要 [6][24] - **三阶段训练流程**:包括模仿学习预训练、模仿学习微调和强化学习微调,强化微调基于近端策略优化和分组相对策略优化实现 [6] - **生存奖励机制**:为在复杂场景中稳定优化,引入了生存奖励,对非终端轨迹片段的奖励进行累积,鼓励规划器延迟失效事件的发生,从而提升长时域可行性和探索效果 [9][27] - **最佳实践**:包括采用5步DDIM去噪以增强探索随机性、将探索策略初始化为生成零均值引导尺度、以及使用包含适度比例复杂场景的平衡数据集进行微调 [30][41] 实验结果与性能分析 - **主要性能提升**:在nuPlan基准测试中,与预训练的Diffusion Planner相比,PlannerRFT在反应式交通设置的Val14基准测试上得分提升1.66分,在Test14-hard基准测试上提升2.99分 [35] - **与基线对比**:PlannerRFT在四个基准测试中的三个取得了最佳整体性能,特别是在包含动态、高交互场景的Test14-hard非反应式数据集上,性能显著优于其他现有最优规划器 [36] - **行为模式演化**:强化微调使规划器呈现出与模仿学习不同的行为模式,通过奖励导向优化,驾驶策略逐渐调整为更安全、高效的机动动作,例如从发生碰撞到保持安全,再到执行果断且安全的变道 [37] - **探索策略有效性**:消融实验表明,与无引导、均匀分布采样或固定Beta分布采样相比,PlannerRFT提出的策略引导去噪在提升轨迹多样性的同时,实现了更高的闭环性能得分和更稳定的训练过程 [39][40] - **微调数据影响**:实验发现,仅在碰撞场景上训练会导致性能下降,而在所有简单场景上训练提升有限,最佳结果来自于在结合了碰撞和低得分场景的平衡数据集上进行微调 [41] - **关键参数影响**:奖励公式方面,生存奖励优于终端奖励;引导偏移量方面,适度的偏移量能在探索与利用之间取得最佳平衡 [43][46][47]
你的模型真的能打吗?操作任务的长尾场景评测来了
具身智能之心· 2026-01-20 08:33
文章核心观点 - 上海交大等研究团队提出GM-100基准测试,旨在解决当前机器人学习领域数据集任务设计单一、评估标准不统一的问题,通过100项多样化、具挑战性的任务全面评估机器人智能体能力,并推动行业向任务多样化与复杂化发展 [1][4] 现有机器人数据集与评估的局限性 - 当前主流数据集如Open X-Embodiment整合了22种机器人、160,266项任务,Agibot收集了超过100万条轨迹,RoboCOIN为421项任务提供了18万余条演示数据,但任务设计多集中于“拾取并握持”等常见行为,缺乏对复杂和长尾任务的覆盖 [3] - 任务设计的单一化导致训练出的模型存在显著偏差,作为预训练模型时,在真实场景中的适用性受限 [3] - 多数研究在提出新方法时,仅在少数常见任务上测试,且缺乏统一标准,使得不同研究成果之间难以进行公平对比 [3] GM-100基准测试的设计理念与方法 - GM-100包含100项精心设计的任务,旨在涵盖各类交互场景与长尾行为,其设计基于对现有任务设计的系统性分析与扩展,并结合了人类-物体交互基元与物体功能特性的相关洞见 [1][4] - 任务设计不以真实世界任务的实用性为标准,而是将物理常识与底层操作知识作为生成与筛选任务的唯一准则,以避免人为偏差 [4] - 设计过程首先收集并分析现有研究(如Agibot、Open X-Embodiment)的任务,去重分类后,参考HAKE、PaStaNet、OCL等人类-物体交互研究的洞见,利用大型语言模型(如Qwen3)自动生成大量候选任务,再通过模型评分和五名人类专家筛选,最终确定高质量、可执行的任务 [9][10] GM-100的数据收集与实验设置 - 通过遥操作方式在GM-100任务上收集了一个中型数据集,包含超过13,000条轨迹 [11][13] - 数据收集在两款不同的机器人平台(Agilex Cobot Magic和Dobot Xtrainer)上进行,两款平台具有不同的运动学结构、双臂设计和主相机视角,以提供多样化数据 [14] - 对于每个任务,首先收集100条具有不同初始条件和设计扰动的轨迹,以确保多样性,随后再收集30条分布相似的轨迹用于评估过程中的测试用例对齐 [17] - 为验证任务的可行性和挑战性,在100个任务上对多个基线模型进行了评估,包括DP以及多个视觉-语言-动作模型,VLA类模型基于每个任务收集的100条轨迹进行微调 [18] GM-100的评估结果与特性 - 实验结果表明,GM-100的任务具备可执行性以及足够的挑战性,能够有效区分当前视觉-语言-动作模型的性能 [2][4] - 在Xtrainer平台的实际场景性能评估中,不同模型的平均成功率(SR)在1.6%至53.9%之间,部分成功率(PSR)在4.4%至32.1%之间,整体成功率较低,凸显了任务的固有挑战性 [20] - 评估采用了成功率、部分成功率和动作预测误差(均方误差和L1损失)等多个指标,以全面反映模型性能 [22]
中游智驾厂商,正在快速抢占端到端人才......
自动驾驶之心· 2026-01-16 10:58
行业趋势与市场现状 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播 [1] - 行业前沿技术发展放缓,业内量产方案趋同,整体呈现技术下沉趋势 [2] - 端到端等前沿技术的大规模量产起点预计在2026年 [2] - 二十万以上的乘用车年销量约700万辆,但头部新势力销量占比不足三分之一,搭载端到端技术的量产车型占比更低 [2] - 随着L3级自动驾驶法规推进,中游厂商面临紧迫的技术升级压力 [2] 技术发展路径与需求 - 端到端技术的成熟被视为开启更大规模量产的关键 [2] - 近期众多公司算法负责人迫切希望了解端到端所需的技术能力 [2] - 在端到端时代,感知任务合并与规控算法学习化已成为绝对主流 [7] - 如何高效合并感知任务、设计学习化的规控模块成为各大公司的核心必备技能 [7] 端到端技术架构与方案 - 主流技术架构分为两段式与一段式端到端算法 [8][9] - 两段式框架涉及感知与规划控制(PNC)间的信息传递建模,存在信息损失 [8] - 一段式框架可实现信息无损传递,性能通常优于两段式方案,代表方法包括基于VLA和基于Diffusion的方法 [9] - 量产落地需包含后处理的兜底逻辑,例如时空联合规划等轨迹平滑优化算法,以保证输出轨迹的稳定可靠 [13] 关键赋能技术与应用 - 导航信息在自动驾驶中起引导、选路、选道的关键作用,其地图格式、编码与嵌入方式是技术重点 [10] - 仅靠模仿学习存在局限,需结合强化学习(RL)使机器学习因果关系,实现更好的泛化能力 [11] - 轨迹输出优化涉及模仿学习与强化学习的结合使用,具体算法包括基于扩散模型和基于自回归的算法 [12] 量产实践与经验 - 真正的量产落地需从数据、模型、场景、规则等多视角综合施策,以快速提升系统能力边界 [14] - 课程内容聚焦量产实践,涵盖从架构概述、具体算法、导航应用、RL训练到轨迹优化及兜底方案的完整链条 [7][8][9][10][11][12][13][14]
一直霸榜的pi0.5,被中国的模型干下来了!!!
具身智能之心· 2026-01-12 08:03
模型性能突破 - 千寻智能团队研发的Spirit v1.5模型在RoboChallenge评测榜上超越此前霸榜的Pi0.5,以66.09的总分和50.33%的成功率夺得总榜第一,而Pi0.5的分数和成功率分别为61.84和42.67% [2][4] - 这是中国具身智能模型首次在性能上超越海外最先进的开源模型,标志着中国在该领域进入全球领先阶段 [2] 传统数据方法的局限性 - 依赖高度“干净”的演示数据是模仿学习的弊病,其对应高昂成本,且存在多样性低和可扩展性受限的问题 [5] - 数据多样性低:采集过程遵循固定指令,导致数据缺乏多样性,例如“擦桌子”的数据集无法让模型学习处理打滑、杂乱表面或光线变化等现实复杂性 [5] - 可扩展性受限:每个新任务都需要精细的设计和质量控制,消耗大量工程资源,限制了数据采集的体量和模型可获得的机器人经验 [5] Spirit v1.5的核心技术特点 - 模型训练不依赖高度精选的“干净”演示数据,避免了因数据过于理想化而限制机器人在开放世界中的泛化能力 [6][7] - 在预训练阶段引入了开放式、多样化的数据采集范式,数据采集以“完成有意义目标”为导向,允许操作中自然串联多个子任务,使模型能接触到遮挡、失败恢复等真实世界复杂性 [8] - 这种基于多样化数据的预训练范式,代表了机器人学习领域摆脱对高度精选数据集依赖的根本性转变 [14] 多样化数据的训练优势 - 消融实验表明,在相同数据规模下,基于多样化数据预训练的模型在新任务上的迁移效率明显高于基于传统演示数据训练的模型,达到相同性能所需的计算资源显著减少 [9] - 多样化数据预训练的模型比干净数据训练的模型具有更快的收敛速度和更好的验证误差 [12] - 模型迁移效率随多样化数据量的增加呈正相关,数据规模扩大能持续降低模型在新任务上的验证误差,表明任务多样性比单任务演示数量更为关键 [13][16] - 使用高多样性、弱控制的数据进行预训练不仅可行,而且显著优于学术界常见的利用“干净”数据的做法 [13]
一个近300篇工作的综述!从“高层规划和低层控制”来看Manipulation任务的发展
具身智能之心· 2026-01-06 08:32
文章核心观点 - 机器人操纵作为具身智能的核心难题,正因大型基础模型的出现而迎来变革,其技术框架可统一为“高层规划”与“低层学习型控制”两大模块的协同体系 [1] - 当前技术突破在于基础模型提升了机器人的感知与语义泛化能力,使其能基于自然语言指令在非结构化环境中工作,但规模化落地仍面临通用架构缺失、数据瓶颈、物理交互不足及安全协作等核心挑战 [1][23][26] - 未来研究方向聚焦于构建通用机器人架构、破解数据困境、强化多模态物理交互以及保障安全协作,以推动机器人操纵从实验室走向真实复杂场景 [30][31] 高层规划:任务解构与决策引导 - 高层规划负责明确动作意图、时序组织及环境注意力分配,其核心是融合多模态信息解决“做什么”和“按什么顺序做”的问题,包含六大核心组件 [4] - **基于LLM的任务规划**:以大型语言模型为核心实现自然语言到任务步骤的映射,早期方法如SayCan选择可执行技能,进阶方案如Inner Monologue引入闭环反馈实现动态调整,LLM+P和REFLECT强化了长时程推理与失败处理 [5] - **基于MLLM的任务规划**:联合视觉与语言进行推理,PaLM-E通过机器人具身数据与视觉语言模型共训练实现端到端任务推理,VILA直接复用GPT-4V能力无需微调,机器人专用MLLM如RoboBrain、Gemini Robotics在具身基准测试中表现优于通用模型 [8] - **代码生成**:将规划转化为可执行程序以弥补语言计划的精度缺陷,Code as Policies通过暴露API让LLM生成控制代码,Demo2Code、SHOWTELL支持从演示中提炼程序,Statler、HyCodePolicy通过维护世界状态提升闭环控制鲁棒性 [9] - **运动规划**:利用LLM或视觉语言模型生成连续运动目标以衔接高层推理与低层轨迹优化,VoxPoser构建语言-视觉条件的3D价值图提供优化目标,CoPa、ManipLLM融入物理先验确保可行性,ReKep通过关系关键点实现自主轨迹生成 [10] - **可用性学习**:聚焦“物体能做什么”,从几何、视觉、语义及多模态四个维度学习物体的交互可能性,为操纵决策提供先验知识 [11] - **3D场景表征**:将环境感知转化为结构化动作提案,通过高斯splatting实现可编辑的3D场景表示支持抓取候选生成,借助神经描述场等隐式表征编码几何与语义信息,实现少样本姿态迁移等任务 [12] 低层学习型控制:动作生成与执行落地 - 低层控制负责将高层规划转化为精准物理动作,解决“怎么做”的问题,从学习视角可拆解为学习策略、输入建模、潜态学习、策略学习四大核心组件 [14] - **学习策略**:定义技能获取的核心范式,主要分为三类:强化学习(包括无模型方法如QT-Opt、PTR和有模型方法如Dreamer、TD-MPC)、模仿学习(包括基于动作的模仿如行为克隆和基于观察的模仿)以及辅助任务学习(如世界建模和目标提取) [16][18] - **输入建模**:定义多模态感知的融合方式,主要包括:视觉-动作模型(基于2D视觉如Diffusion Policy或3D视觉如RVT)、视觉-语言-动作模型(整合语义时空信息,如RT-2、OpenVLA、SpatialVLA)以及触觉/力/音频等额外模态(如T-DEX融合触觉信号提升接触-rich操纵的鲁棒性) [19][20] - **潜态学习**:负责从输入数据中获取鲁棒通用的表征并优化其向动作的解码,包括在通用数据上预训练视觉编码器,以及将动作抽象为离散token(如VQVLA)或连续向量(如MimicPlay、LAD)以平衡泛化性与执行精度 [21][24] - **策略学习**:定义将表征解码为可执行动作的模型架构,主流范式包括:结构简单的MLP-based策略、利用注意力建模时序依赖的Transformer-based策略(如ACT)、通过迭代去噪生成多模态轨迹的扩散策略以及提升推理速度与平滑度的流匹配策略 [25] 核心挑战与未来方向 - **通用架构缺失**:现有方法多针对特定任务或机器人形态,缺乏能适配多样模态、载体及任务的通用基础模型,且长时程执行中易出现误差累积,难以维持稳定表现 [26] - **数据与仿真瓶颈**:真实世界机器人数据采集成本高、规模有限,而仿真环境与真实场景存在差异,导致模型迁移性能不佳,缺乏高效的数据循环机制 [27] - **多模态物理交互不足**:当前方法以视觉为中心,对触觉、力等物理交互信号的融合不够充分,难以应对可变形物体、复杂材料等接触动力学主导的场景 [28] - **安全与协作问题**:在人机共存环境中,现有方法在满足内在安全约束、意图推理与故障恢复能力上仍有欠缺 [29] - **未来研究方向**:针对挑战明确了四大重点:构建支持灵活模态接口与载体适配的通用“机器人真脑”架构;建立自主数据采集与提炼的“数据飞轮”并提升仿真保真度;融合触觉、听觉等多模态信号以强化物理交互;设计内在安全的控制策略并建立故障恢复机制,采用“学习+经典控制”的混合范式保障可靠性 [30]
万字长文,VLA的架构和模型还有什么痛点?
具身智能之心· 2025-12-30 09:11
文章核心观点 本次圆桌讨论聚焦于具身智能领域的视觉-语言-动作模型,与会专家普遍认为当前VLA的总体架构已趋于标准化和模块化,但模型的泛化能力与落地应用之间仍存在显著差距。未来发展的关键驱动力将来自数据、3D表征学习、强化学习与模仿学习的结合,以及感知与控制模块的逐步统一。 VLA的架构与模型现状 - 当前VLA的总体架构已相对收敛,形成了一种标准范式,即以视觉语言模型为基座,嫁接一个动作输出模块 [14][16] - 尽管架构趋同,但核心差异并非架构本身,而在于数据驱动 [14] - 当前从业者的工作多是在此标准框架下进行“小修小补”,例如引入触觉、记忆等新模块 [15] - 从实际表现看,VLA已能学习叠衣服等长程复杂任务,比去年进步明显,但其泛化性能尚不足以支撑落地 [16] VLA当前痛点与挑战 - 模型将VLM的2D图像与文本特征强行映射到3D动作空间,导致泛化性损失 [17] - VLA的硬件和数据可能成为限制,使精细化操作难以实现 [13] - 当前开源的VLA架构同质化严重,但尚不能确定这就是最佳架构,未来可能有更好的架构出现 [18] - VLM基座模型对3D物理世界的理解非常不充分,缺乏精准的空间grounding能力 [49] VLA未来可能的发展方向 - **3D表征学习**:让特征从2D更好地迁移到3D,利用3D预训练模型提升泛化性和性能 [17][43] - **训练范式创新**:结合强化学习与模仿学习 [43][45]。模仿学习效率高,可完成80%到90%的任务,而强化学习能处理失败数据并激发更高智能 [46] - **与世界模型结合**:使模型具备预判和脑补未来的能力,而不仅是基于当前时刻预测动作序列 [50] - **模块化与系统整合**:VLA作为提供先验知识的基座,需要与世界模型、RL等多种技术点在系统中协同安排,共同解决问题 [48][50] 感知与控制的统一路线 - 从长远目标看,感知与控制最终会趋向统一,形成一个“大一统”的端到端模型 [22][27][35] - 但在实现路径上,由于有大量迫切的现实问题需要解决,目前仍需分模块研发,例如导航场景仍需高精度的专用感知模型 [23][27] - 通过先进行模块化的端到端探索,积累各子领域的经验,才能最终迈向统一 [24][27] - 即使在实现大一统模型后,为建立安全互信和提供策略兜底,保留部分模块化输出(如OCC)仍有必要 [36] 自动驾驶经验对具身智能的借鉴 - 自动驾驶被视为具身智能的一个特殊场景,其完整的技术发展脉络(从模块化到端到端)对具身领域有重要参考价值 [34] - 自动驾驶领域将感知与控制结合后,解决了拟人化和处理复杂长尾案例的难题,这同样适用于具身智能 [34] - 具身智能可以直接对标自动驾驶的最新技术,但因其要求完全自动化,对规则和可解释性的需求可能比自动驾驶更严格 [38] 强化学习在新时代的角色 - 大模型的出现为强化学习提供了强大的起点,使其能够利用大规模算力,进入新的发展阶段 [31] - 强化学习作为一种工具,其算法并未收敛,需要针对不同任务(如数字空间推理与物理空间学习)开发不同的高效方法 [30] - 在具身智能产品化或追求AGI的路径上,不能只专注于强化学习,而需要更全面的知识面,整合模仿学习、VLA基座等多种范式 [46]
强化学习应用在自动驾驶中的一些思考
自动驾驶之心· 2025-12-23 08:53
文章核心观点 - 文章深入解读了Waymo在ECCV上发表的一篇关于在自动驾驶轨迹规划任务中应用强化学习进行微调的论文,认为该方法逻辑通顺、通用性强,为解决主流模仿学习方法在开环训练中存在的因果不一致、难以处理分布外状态等问题提供了一个有效思路,其核心在于通过预训练结合强化学习微调的两阶段方法,在无需高保真仿真环境的情况下实现闭环训练,从而提升智能体行为的合理性与安全性[3][4][14] 方法背景与问题 - 主流的基于学习的规划模块多采用模仿学习方法,进行开环训练,即在服务器训练后部署到车端运行,这种模式下,车辆在实车测试中一旦进入不合理状态很难自行纠正,增加数据量或扰动初始状态只能缓解但不能根治分布外问题[3] - 许多模仿学习方法采用单帧感知信息结合多秒真实轨迹的组合进行训练,若感知范围有限或远端感知不准,会导致因果不一致的问题,例如真实轨迹在远端无感知道路处转弯,而当前帧感知无法覆盖,此类混乱数据会误导网络学习[7] 提出的解决方案与模型结构 - 文章提出的方法采用预训练与强化学习微调相结合的两阶段训练方式,其网络结构沿用了Waymo之前的MotionLM模型,采用自回归方式输出轨迹,在推理阶段通过循环依次输出自车与交通参与者的动作,从而构成完整轨迹并确保因果关系一致[4] - 该模型同时输出自车与交通参与者的动作,这本身构成了一个简易版的世界模型,网络输入采用以场景为中心的编码方式,例如对于输出6秒轨迹的任务,静态信息是6秒内信息的汇总,而非仅当前帧,这能确保在推演过程中车辆不会驶出感知道路范围[4][6] 训练流程与奖励函数 - 预训练阶段使用因果掩码拟合真实轨迹,动作定义为横纵向加速度及一个13x13的空间网格,强化学习微调阶段则使用简单的运动学方程进行位置更新[8] - 强化学习阶段的奖励函数设计简洁,包含两部分:拟合真实轨迹的奖励和碰撞惩罚,具体公式为 $$r_{t,i}=-||P o s_{t,i}-G T_{t,i}||_{2}-\lambda C o l l_{t,i},$$,这种组合被认为能兼顾效率与安全性,且拟合奖励能有效防止训练崩溃[11] - 奖励值在批次维度和所有时间步上进行标准化,公式为 $$R_{t,i}=(R_{t,i}-Mean(R))/Std(R)$$,这种方法省略了评价者网络,类似于GRPO的方式,并采用策略梯度进行更新,作者认为若在采样轨迹范围内标准化会更精确,但可能因计算量而未采用[13] 方法优势与行业意义 - 与在损失函数中添加碰撞、效率等辅助损失项的模仿学习方法相比,将类似约束转化为奖励函数能带来更好效果,因为奖励通过提升特定决策模态的概率来间接优化,而非直接作用于轨迹形态,可避免导致轨迹扭曲、摆动或加减速顿挫等问题[14] - 强化学习的核心价值在于闭环学习,即使使用较小但难度较高的数据集进行微调,也能显著提升模型能力,该方法参考了大语言模型中强化学习微调的思路,指出拥有真正的世界模型是实现物理人工智能的关键路径[14] - 该方法的一大优势是思路易于借鉴和复现,且不需要依赖高保真的仿真环境,为行业提供了一种通用性强的训练范式[4][13]
AAAI 2026 Oral | 机器人也能“看人学活”?一次示范就能学会新任务!
具身智能之心· 2025-12-12 09:22
研究背景与问题 - 从人类示范中学习是机器人执行任务的一种潜力巨大的方式 但现有方法通常依赖粗对齐的视频对 只能学习全局或任务级别的特征 忽略了复杂操作和泛化所需的细粒度帧级动态信息[3] - 现有模型在已见任务上表现良好 但面对人类展示的从未见过的新任务时表现不佳 原因在于主流方法依赖粗糙的人机视频对齐 机器人只能大概知道人在干什么 却不知道人手具体如何动作[8] - 数据不够精细导致模型学不到关键动作细节 许多方法将整段视频压缩成固定长度向量 丢失了细节 使得模型无法理解动作间的微小差别 从而缺乏真正的泛化能力[8] 解决方案与核心创新 - 复旦大学和上海创智学院提出了一种范式转变 将细粒度的人机动作对齐视为一个条件视频生成问题[3] - 核心创新是让机器人看着人类做 然后脑补出自己应该怎么做 即直接生成一段对应的机器人操作视频 该方法要求模型逐帧预测机器人下一步如何移动 从而在生成过程中学会动作细节和理解操作逻辑[8] - 为支持该方法 研究团队引入了一个全新的第三人称数据集H&R 该数据集包含2,600段通过VR远程操控系统采集的精准同步的人类和机器人动作视频 涵盖4类基础任务和6类复杂长程任务[3][9] Human2Robot技术框架 - 该方法分为两个阶段 第一阶段是视频预测 机器人看到人类操作时 模型直接生成一段机器人应该如何动作的视频 模型先学会生成单帧 再进阶训练整个视频以掌握完整的动作演化过程[12][13][14] - 视频预测模型包含三个关键组件 Spatial UNet负责捕捉机械臂形状和手部动作等关键信息 Spatial-Temporal UNet负责理解动作连贯性并学会逐帧预测的时间关系 Behavior Extractor负责提取人手的位置、速度和方向等运动线索[15] - 第二阶段是动作解码 由于视频渲染速度慢不适合实时操作 因此只取一次去噪后的中间特征 这些特征已包含机械臂下一步的位置、动作趋势和物体相对关系 然后训练一个动作解码器来输出机器人的关节角或位姿[16][21] 实验结果与性能 - 在已见任务上 Human2Robot方法在所有任务上均取得最高成功率 对比基线方法DP、XSkill和VPP Human2Robot保持超过10–20个百分点的优势[20] - 具体数据表明 在Push & Pull任务上Human2Robot成功率为100% 在Pick & Place任务上为90% 在Rotation任务上为90% 平均成功率为93%[19] - 引入KNN推断的Human2Robot在所有任务上仍优于各基线方法 相比完整版本 KNN策略仅带来约10–20%的成功率下降 处于可接受范围内[20] 泛化能力评估 - 该方法能够实现对新的位置、物体、实例 甚至全新任务类别的一次性泛化 对于一个没见过的任务 只需要给一段人类完成任务的视频 即可让机器人完成这个任务[4] - 在六类泛化设置中 Human2Robot在位置、外观、实例与背景变化下均保持领先 并能完成组合任务与全新任务 而XSkill与VPP在后两者上均失败[27] - 泛化优势被认为源于H&R数据集提供的明确人机动作对应关系 以及视频条件提供的细粒度动态信息 这使得策略具备了跨任务泛化能力[27] 消融研究与有效性验证 - 测试了直接从人类视频预测机器人动作的方式 该方法平均成功率仅为23% 动作执行抖动明显 对抓取等关键行为不敏感 说明仅依靠人类视频推断机器人动作映射较为困难[25] - 为验证视频生成预训练的必要性 设计了未进行预训练的变体 结果显示该方法几乎无法完成任务 最简单的推拉任务成功率仅为20% 抓取放置任务仅为10% 证明视频预训练对于建立动作先验至关重要[26] - 可视化分析表明 仅经过一步去噪的预测已包含足够的动作信息 可有效支持后续的动作规划 30步去噪结果与真实机器人视频高度一致 验证了所提出视频预测模型架构的有效性[24]
理想分享自动驾驶强化学习闭环训练框架
理想TOP2· 2025-11-28 00:10
论文核心观点 - 论文AD-R1旨在通过闭环强化学习提升端到端自动驾驶的安全性与鲁棒性 解决现有世界模型无法正确预测危险后果的系统性缺陷[2] - 核心创新在于提出公正世界模型和基于未来想象的强化学习框架 以解决模仿学习的分布偏移和缺乏负反馈问题[3][4] 自动驾驶技术范式对比 - 开环系统基于离线数据静态回放 算法决策与环境状态解耦 无法改变历史[1] - 闭环系统在动态仿真中实现车辆操作与环境的实时交互 并改变后续时空轨迹[1] 现有技术缺陷分析 - 模仿学习存在分布偏移问题 难以应对训练数据未覆盖的长尾场景[3] - 缺乏负反馈机制 导致AI无法从数据中学习危险行为的后果[3] - 现有世界模型存在乐观偏差 会对不安全动作产生幻觉 如让障碍物消失或改变路面属性以维持预测连贯性[3] AD-R1框架核心技术 - 训练公正世界模型作为诚实裁判 通过反事实数据合成将安全数据转化为车祸数据 教会模型理解危险行为的真实后果[4] - 采用轨迹感知门控技术 通过掩码强制模型关注指令路径上的特征 防止忽略障碍物[6] - 引入自车保真度损失作为惩罚项 防止模型在预测未来时擅自改变自车轨迹 确保其只预测不行动[6] 强化学习训练流程 - 策略网络首先生成候选轨迹(如10条)[8] - 轨迹输入公正世界模型(梦境引擎)预测未来4D占用网格[7][8] - 基于预测未来计算奖励 使用GRPO算法通过对比轨迹优劣更新策略 无需额外价值网络[8] 三维空间精细化评估 - 利用世界模型输出的3D/4D体素数据 计算比传统BEV方法更细致的奖励函数[8] - 体积碰撞惩罚通过重叠体积量化碰撞严重程度 而不仅是二元判断[8] - 垂向间隙惩罚检测隧道顶部或限高杆碰撞风险(2D BEV无法实现)[8] - 路面稳定性奖励确保车辆行驶在平坦路面 避免骑压马路牙子[8]