Workflow
Reward World Model (RWM)
icon
搜索文档
自驾VLA再升级!博世最新IRL-VLA:奖励世界模型打造全新闭环强化学习框架
自动驾驶之心· 2025-08-13 07:33
自动驾驶技术框架IRL-VLA - 提出三阶段闭环强化学习框架:模仿学习预训练VLA策略、逆向强化学习构建奖励世界模型(RWM)、RWM引导的PPO策略优化[3][11][26] - 核心创新点包括轻量化RWM替代高成本仿真器、扩散式轨迹生成规划器、语义与3D推理模块融合[11][18][19] - 在NAVSIM v2基准测试EPDMS达74.9,CVPR2025挑战赛获亚军成绩45.0 EPDMS[3][42][46] 技术架构创新 - VLA模型整合语义推理模块(Senna-VLM框架)、BEV编码的3D推理模块、基于扩散的轨迹规划器[18][19] - RWM通过逆向强化学习建模8项驾驶指标(碰撞/合规性/舒适度等),权重遵循EPDMS标准[22][24] - 采用分层去噪的扩散策略生成多模态轨迹,结合GAE优势估计优化PPO训练过程[29][32] 性能验证与对比 - NAVSIM数据集测试显示:预训练模型(IRL-VLA-PT)在扩展舒适度(EC 76.0)和自车进度(EP 83.9)显著优于GTRS-Aug(EC 54.2/EP 76.1)[42] - 消融实验证实:扩散规划器使EPDMS提升3.0,语义推理模块提升1.4;模仿学习权重0.5时效果最佳[44][45] - 相比传统方法(PDM-Closed EPDMS 51.3),实现46%的性能提升且保持计算效率[42] 行业应用价值 - 首个不依赖仿真器的闭环VLA方案,解决Sim2Real领域差距与计算瓶颈问题[11][23] - 方法可扩展至真实世界数据,支持多目标(安全/效率/规则)联合优化[26][33] - 为端到端自动驾驶提供新范式,推动感知-规划-控制全链路协同优化[46]