逆强化学习

搜索文档
基于深度强化学习的轨迹规划
自动驾驶之心· 2025-08-29 07:32
强化学习技术范式演进 - 业界从端到端自动驾驶转向VLA和强化学习等新技术范式 [4] - 强化学习在2018年AlphaZero和2023年ChatGPT RLHF推动下获得更广泛应用潜力 [4] - 2025年初DeepSeek-R1在线推理进一步拓展强化学习使用场景 [4] 学习范式对比 - 监督式学习通过海量数据拟合输入到输出的映射函数 优化目标为平均均方误差值 [5] - 模仿学习以专家动作为监督信号进行行为克隆 在自动驾驶中扩展为短时序轨迹学习 [6] - 强化学习通过环境交互和任务结果反馈优化模型 采用延迟满足的时序决策机制 [7] - 逆强化学习通过用户反馈学习reward-model 解决奖励函数难以定义的问题 [8] 基础理论框架 - 马尔可夫决策过程将时序任务分解为状态概率转移任务 适用于自动驾驶目标生命周期管理 [10] - 动态规划通过分解最优子问题解决离散空间时序任务 [12] - 蒙特卡洛方法利用大数原理统计系统宏观特性 [13] 核心概念体系 - 策略分为确定性和随机性两种 自动驾驶通常采用确定性策略 [14] - 奖励函数提供环境反馈 价值回报定义为衰减因子加权和的时序期望值 [15] - 状态价值函数表示状态期望回报 动作价值函数评估状态动作组合的期望回报 [16][17] - 优势函数衡量动作价值与状态价值的差异 [19] - 贝尔曼方程通过动态规划分解价值函数 [20] 算法分类体系 - 值优化方法直接最大化Q或V函数 包括动态规划/蒙特卡洛/时序差分算法 [25][26] - 策略优化分为on-policy和off-policy两种 后者训练稳定性更好但存在分布偏差 [27][28] - 动态规划采用策略迭代和价值迭代算法求解离散任务 [30] - 蒙特卡洛方法通过统计平均估计价值函数 [32] - 时序差分算法引入常数alpha简化更新过程 衍生出SARSA和Q-learning等算法 [34][39] 深度强化学习算法 - DQN算法通过经验回放和目标网络解决连续状态表达问题 [41] - Dueling DQN将价值网络分解为Q和A的和并增加正则项 [42] - GAE算法结合蒙特卡洛和时序差分进行优势估计 [42] - 策略梯度算法使用梯度下降方式更新策略参数 [46] - Actor-Critic算法同时学习策略和价值函数 [49] - TRPO算法通过置信区间约束保证训练稳定性 [53] - PPO算法简化TRPO约束条件为clip函数 [55] - GRPO算法采用在线group样本统计平均替换value-model [57] 自动驾驶应用实践 - 预训练通过模仿学习任务初始化策略和价值网络 [58] - 策略梯度采用概率建模方法处理action输出 [59] - reward设计涵盖安全性/安心感/效率等指标 高级功能通过逆强化学习实现 [60] - 闭环训练需要多智能体博弈建模环境动态响应 [60] - 端到端强化学习需实时生成更新后的sensor内容 [61]
二段式SOTA!港科大FiM:从Planning的角度重新思考轨迹预测
自动驾驶之心· 2025-08-10 00:03
核心观点 - 提出"先推理,后预测"策略,从规划视角重构轨迹预测任务,显著提升预测置信度和准确性 [9][48] - 开发基于奖励驱动的意图推理器,结合QIRL框架实现可解释的行为意图推理 [6][9][24] - 引入Bi-Mamba增强的分层DETR-like解码器,有效捕捉轨迹序列依赖关系 [27][29][48] - 在Argoverse和nuScenes数据集上超越多个SOTA模型,minFDE6降低5-15% [34][36][38] 技术框架 意图推理模块 - 采用网格级图表示场景布局,定义GRT作为离散决策序列 [5][17] - 基于MaxEnt IRL构建QIRL框架,学习参与者特定奖励分布 [6][14][23] - 通过策略rollout生成多模态GRT,提供意图先验指导 [24][26] - 辅助S-T OGM预测头建模未来交互,提升特征融合 [25][41] 轨迹解码架构 - 分层设计:首先生成无锚点轨迹提议,再进行基于锚点的优化 [26][27] - 双向Bi-Mamba结构处理轨迹序列,双向CLS token增强特征融合 [29][42] - 模态自注意力模块促进多模态交互,避免模态坍塌 [31][43] - 整体采用编码器-解码器结构,集成场景编码与轨迹生成 [18][20] 实验结果 定量指标 - Argoverse1测试集:Brier score 0.5732(集成模型),优于HPNet(0.5912) [34][35] - Argoverse2验证集:minFDE6 0.528,长期监督版本(GRT-L)表现最佳 [36] - nuScenes数据集:minADE10 0.78,MR10 0.23,全面领先现有方法 [37][38] 消融研究 - 移除推理分支导致brier-minFDE6上升44%(2.879→1.602) [40] - Bi-Mamba比单向结构降低Brier score 1.5%(0.603→0.594) [42] - OGM模块贡献约6%的minFDE6提升(1.670→1.602) [40][41] 行业应用 - 验证了RL范式在驾驶行为建模的可行性,为VLA时代提供技术基线 [48][54] - 课程内容显示VLA算法工程师岗位薪资达40-70K,反映技术需求 [54][55] - 知识星球社区覆盖30+技术栈,4000+成员包含300+企业与机构 [59]
干货 | 基于深度强化学习的轨迹规划(附代码解读)
自动驾驶之心· 2025-07-30 07:32
自动驾驶技术中的强化学习应用 核心观点 - 强化学习在自动驾驶领域从机器人早期阶段已有应用,但受限于训练效率低和复杂度高,工业界普及度有限 随着AlphaGo、ChatGPT RLHF和DeepSeek-O1等技术的突破,强化学习在时序决策任务(如轨迹规划)中展现出潜力 [3][7] - 自动驾驶的强化学习需结合模仿学习、逆强化学习等技术,通过动态reward设计(安全性/舒适性指标)和闭环训练解决环境交互问题 [8][62] 技术范式分类 1 基础学习概念 - **监督式学习**:用于感知任务(目标检测),通过固定训练集优化模型输出与监督信号的均方误差 [5] - **模仿学习**:以专家动作为监督信号,扩展至短时序轨迹生成,是端到端自动驾驶的主流方法 [6] - **强化学习**:通过环境交互的延迟反馈(如轨迹规划中的碰撞避免)优化策略,依赖动态reward信号 [7] - **逆强化学习**:从专家数据中学习reward-model,解决自然语言或驾驶舒适性等难以定义的奖励问题 [8] 2 核心算法框架 - **值优化方法**:包括动态规划、蒙特卡洛(统计大数原理)、时序差分(SARSA/Q-Learning)及混合算法(GAE) [29][30][33][44] - **策略优化方法**: - **REINFORCE**:蒙特卡洛估计策略梯度 [50] - **Actor-Critic**:结合策略网络与价值函数拟合 [51] - **PPO**:通过clip函数简化TRPO的约束条件,提升训练稳定性 [57] - **GRPO**:DeepSeek提出的轻量化算法,利用在线group样本替代value-model [59] 自动驾驶场景关键技术 - **预训练**:策略网络与价值网络通过模仿学习初始化,提升训练收敛性 [60] - **概率建模**:自回归/Diffusion模型对action多步rollout,通过环境反馈优化策略 [61] - **闭环训练**:需建模多智能体博弈(他车动态响应),避免静态环境导致的策略偏差 [62] - **端到端融合**:结合NeRF/3DGS生成动态环境感知数据,实时更新传感器输入 [63] 行业应用趋势 - 技术社区活跃度显著提升,涉及大模型、VLA、BEV感知等30+技术栈,近4000人参与交流,300+企业与科研机构加入 [65]
二段式端到端新SOTA!港科大FiM:从Planning的角度重新思考轨迹预测(ICCV'25)
自动驾驶之心· 2025-07-26 21:30
核心观点 - 提出"先推理,后预测"策略,从规划视角重构轨迹预测任务,通过行为意图推理提升预测准确性和置信度 [4][11] - 开发奖励驱动意图推理器,结合以查询为中心的逆强化学习框架(QIRL)和最大熵逆强化学习(MaxEnt IRL) [8][14] - 设计分层DETR-like解码器集成双向选择性状态空间模型(Bi-Mamba),增强序列依赖关系捕捉能力 [9][26] - 在Argoverse和nuScenes数据集上实现SOTA性能,minFDE6指标达0.528-0.551,Brier分数0.594-0.629 [33][36] 技术框架 意图推理模块 - 采用网格级图表示场景布局,定义基于网格的推理遍历(GRT)作为意图序列 [5][19] - QIRL框架将向量化场景特征聚合为网格token,通过MaxEnt IRL推导奖励分布 [8][24] - 策略rollout生成多模态GRT序列,提取意图先验指导轨迹预测 [24][25] - 辅助时空占用网格图(OGM)预测头建模参与者未来交互,提升特征融合效果 [9][24] 轨迹解码架构 - 分层结构包含无锚点提议生成和基于锚点的优化两阶段 [25][26] - Bi-Mamba模型双向处理轨迹token,通过双CLS token实现前向-后向特征融合 [26][28] - 模态自注意力模块增强多模态预测,最终输出轨迹偏移量和概率分布 [26][28] - 消融实验验证Bi-Mamba比MLP基准提升brier-minFDE6达11.3% [40][43] 实验验证 定量结果 - Argoverse 1测试集:单模型brier-minFDE6 1.602,集成模型达1.131 [33][35] - Argoverse 2验证集:GRT-L变体minFDE6 0.528,优于DeMo(0.543)和QCNet(0.551) [34][36] - nuScenes数据集:超越当前所有排行榜模型,验证框架鲁棒性 [36] 消融分析 - 移除推理分支导致brier-minFDE6上升79.6%,验证意图推理关键作用 [37][38] - OGM模块贡献brier-minFDE6下降4.1%,优化模块贡献11.0% [39][40] - 双CLS token设计比单向Mamba提升分类精度3.2% [43][47] 行业应用 - 向量化表示结合Transformer架构成为自动驾驶轨迹预测主流技术路线 [12][19] - 强化学习范式在驾驶行为建模中展现潜力,为行业提供新研究基线 [47][55] - 长期意图监督(GRT-L)显著提升预测置信度,对量产系统具有实用价值 [34][35]