闭环强化学习 - 财报，业绩电话会，研报，新闻

闭环强化学习

搜索文档

智通财经· 2026-02-01 18:32

公司交付数据 - 2026年1月公司交付汽车27,182辆，同比增长96.1% [1] - 当月交付包括蔚来品牌高端智能电动汽车20,894辆、乐道品牌家庭智能电动汽车3,481辆以及萤火虫品牌智能电动高端小车2,807辆 [1] - 截至2026年1月31日，公司累计汽车交付量达102.48万辆，当月累计交付量突破100万辆里程碑 [1][1] 技术升级与产品推送 - 2026年1月28日，“蔚来世界模型NWM”全新版本正式开启推送 [1] - 新版本已逐步推送至超过46万辆搭载“Banyan榕”的车型，并将陆续为“Cedar雪松”及“Cedar S雪松”车型开启推送 [1] - 新版本将完整的闭环强化学习应用于智能辅助驾驶，升级后的架构将城区与高速驾驶场景全面模型化，提升了智能辅助驾驶体验 [1] - 智能泊车辅助与主动安全在技术能力与用户体验方面有进一步提升 [1] 公司未来战略 - 公司将持续致力于核心智能电动汽车核心技术的研发 [1] - 公司将进一步完善充换电网络布局 [1] - 公司旨在为更广泛的用户群体提供智能电动汽车体验，共创可持续和更美好的未来 [1]

蔚来(09866) - 自愿公告 - 2026年1月交付更新资料

2026-02-01 18:06

业绩总结 - 2026年1月交付27,182辆汽车，同比增长96.1%[3][5] - 截至2026年1月31日，累计汽车交付量达1,024,774辆[3][5] 产品数据 - 2026年1月，蔚来、乐道、萤火虫品牌分别交付20,894、3,481、2,807辆[3] 新技术研发 - 2026年1月28日，“蔚来世界模型NWM”新版本推至超46万辆车[3]

闭环训练终于补上了！AD-R1：世界模型端到端闭环强化学习新框架（澳门大学&理想等）

自动驾驶之心· 2025-11-27 08:04

行业技术趋势 - 世界模型成为自动驾驶领域关键发展方向，具备数据生成、预训练、闭环仿真和轨迹预测等核心能力[1] - 行业领先公司积极布局世界模型技术：小米用于数据生成和闭环仿真，蔚来和华为宣布基于世界模型量产，理想汽车提出从数据闭环走向训练闭环的技术路径[1] - 中科院和华为引望提出的DriveVLA-W0模型利用7000万数据验证了自动驾驶模型的data scaling law，引发行业广泛关注[1] 技术瓶颈识别 - 现有强化学习世界模型存在系统性"乐观偏差"问题，仅基于安全专家数据训练，无法预测错误行为后果[2] - 当输入不安全轨迹时，模型会幻想不切实际的安全未来（如障碍物消失、道路被忽视），而非预测即将发生的故障[2][7] - 这种"无法想象失败"的特性使世界模型难以成为学习稳健驾驶策略的可靠评估器[2] 解决方案创新 - 提出基于公正世界模型的后训练策略优化框架，通过反事实合成流水线生成包含合理碰撞和偏离车道事件的训练样本库[3] - 创新性引入轨迹感知门控模块和自车轨迹保真度损失，确保模型预测始终忠实于指令轨迹[10][25][26] - 构建风险预测基准（RFB）系统量化模型预测灾难性故障能力，为行业提供关键评估工具[15] 技术架构设计 - AD-R1框架包含两大核心模块：新型公正世界模型设计和强化学习框架集成[14] - 公正世界模型基于I²-World高效架构扩展，采用两阶段设计：场景Token化和自回归预测[17][22] - 训练数据混合80%真实nuScenes数据与20%合成反事实数据，实证验证最优比例平衡故障样本与真实驾驶动态[44] 性能验证结果 - 公正世界模型在风险预测基准上表现优异：G-IoU达40.21%，DAF达25.10%，显著优于DOME和I²-World基线模型[47][48] - 后训练优化使两个基线模型的规划决策综合指标（PDMS）分别实现1.7%和1.1%的绝对提升[15][49] - 消融实验证实三大核心组件协同作用：反事实合成带来最关键提升，模型优化增强因果保真度，4D奖励实现最优性能[51][52] 应用价值体现 - 框架具备即插即用特性，可提升任何驾驶智能体的安全性，在复杂仿真场景中大幅减少安全违规事件[3][9] - 4D奖励建模基于物理的丰富基础，能捕捉安全性、舒适性与任务进度，超越传统2D BEV方法的限制[35] - 该方法使智能体能够在安全离线环境中从大量想象故障中学习，为现实世界自动驾驶提供关键能力[15]