强化学习,正在决定智能驾驶的上限
36氪·2026-02-10 12:45

文章核心观点 - 智能驾驶行业正从概念验证阶段进入工程化落地阶段 技术路径的博弈结果取决于技术范式、工程约束与现实场景的融合[1] - 行业共识是强化学习正从“技术选项”变为“必选项” 被认为是决定智能驾驶能力上限的底层能力[7][9] - 智能驾驶的训练体系正从依赖模仿学习转向结合强化学习 模仿学习确保安全基础 强化学习实现策略进化与能力提升[21][25] - 强化学习的有效应用高度依赖精心设计的奖励函数和高质量的世界模型 这两者是提升系统“含模量”和智能水平的关键[30][41][49][60] 技术路径演进 - 行业早期依赖模仿学习 通过让AI学习人类驾驶数据来快速获得稳定、安全的驾驶能力 但上限受限于数据质量且难以应对未知场景[11][14][16] - 强化学习通过试错和最大化长期奖励进行学习 能让AI超越人类经验 应对复杂博弈和极端长尾场景 是能力进阶的路径[17][19][20] - 端到端模型为强化学习铺平了道路 它将感知、理解、控制打包 让AI能完整接管驾驶任务 两者常组合使用[19] - 当前主流训练范式是结合两者:先用模仿学习将模型拉到“能安全跑”的水平 再用强化学习进行精修和策略提升[24][25] 强化学习的核心机制:奖励函数 - 奖励函数是将“开得好”具象化为机器可理解分数的关键 它定义了AI的驾驶风格与水平[30][31] - 行业普遍围绕五个核心指标设计奖励函数:安全、合规、舒适、效率、稳定性 其中安全是红线指标且权重最高[32][33][36] - 奖励设计需在矛盾目标间找到精妙平衡 例如安全与效率 并通过提供多种驾驶模式来满足用户个性化需求[32][34] - 奖励函数设计是“代码的艺术” 需避免AI“刷分” 通过过程密集拆解和分层控制来引导正确行为 并可能引入人类反馈偏好[37][38][39][41] 强化学习的进阶:世界模型 - 强化学习在智能驾驶中的工程应用可分为三层:调参型、策略型、以及基于世界模型的强化学习[43] - 世界模型是一个高度拟真的虚拟现实系统 它为强化学习提供了可信的“试错”环境 能大幅提升其训练效果和上限[48][49][53] - 世界模型让AI具备长时推演能力 可以训练长期最优策略 而不仅仅是当前最优解[50] - 世界模型与强化学习结合能形成进化飞轮:真实道路数据、世界模型造场景、强化学习练策略、实车验证 形成高速迭代循环[51][52] 行业竞争格局与关键变量 - 头部企业如理想、小鹏、Momenta等都在将资源向强化学习路线倾斜[5] - 华为、文远知行、英伟达等头部玩家正将世界建模与强化学习深度耦合 以构建更强大的智能系统[54] - 竞争维度正在变化:在高质量世界模型与生成式仿真加持下 合成数据能力提升 原始数据的边际价值下降 对世界规律的建模能力变得更为稀缺[56][57][58] - 系统“含模量”成为关键指标 即系统能力有多少是模型自我演化而来 世界模型与强化学习的耦合旨在提升“含模量”[60][61][62]