核心技术创新 - 提出IRL-VLA闭环强化学习框架 通过逆向强化学习构建轻量级奖励世界模型(RWM) 取代高计算成本的仿真器奖励计算[3][9][15] - 采用三阶段训练范式:模仿学习预训练VLA策略、逆向强化学习构建RWM、RWM引导的PPO强化学习微调策略[3][15][26] - 在NAVSIM v2基准测试达到SOTA性能 EPDMS得分74.9 并在CVPR2025自动驾驶大奖赛以45.0 EPDMS获得亚军[3][15][48] 模型架构设计 - VLA模型包含语义推理模块(基于Senna-VLM的多图像编码)、3D推理模块(BEV编码器+向量化token)、统一扩散规划器(多模态轨迹生成)[18] - 扩散规划器采用分层去噪机制 整合BEV特征、地图标记和检测标记 确保轨迹符合环境约束[19] - 奖励世界模型以多视角图像和预测轨迹为输入 输出EPDMS综合评分 包含9项子指标加权计算[21][22][23] 性能表现对比 - 预训练模型(IRL-VLA-PT)在Navhard基准测试EPDMS达74.4 优于DiffusionDrive(63.2)、WOTE(66.7)和GTRS-Aug(74.3)[44] - 在安全指标(NC 98.3)接近GTRS-Aug(98.9)同时 显著提升舒适性指标(EC 76.0 vs 54.2)和进度指标(EP 83.9 vs 76.1)[44] - 强化学习微调后(IRL-VLA-RL)EPDMS进一步提升至74.9 证明闭环训练有效性[44][47] 技术实现细节 - 使用V2-99主干网络 处理256×704分辨率多视角图像输入[36] - 模仿学习阶段采用AdamW优化器(学习率10⁻⁴ 批量32)训练100周期[36] - RWM训练结合二元交叉熵、均方误差和交叉熵损失 使用专家演示数据与模拟器反馈[36] - 强化学习阶段采用PPO算法(截断参数0.2 折扣因子0.99 GAE参数0.95)在8块A100 GPU训练[36] 消融实验验证 - 完整模型(3D+语义推理+扩散规划器)比仅3D推理模型EPDMS提升4.4(74.4 vs 70.0)[47] - 模仿学习损失权重λ=0.5时取得最佳平衡 EPDMS达74.9 过高(λ=1.0)或过低(λ=0.1)均导致性能下降[47] - 扩散规划器单独贡献3.0 EPDMS提升 语义推理模块贡献1.4提升[47]
自动驾驶VLA再升级!博世IRL-VLA:打造全新闭环强化学习框架
自动驾驶之心·2025-09-10 07:33