理想ICCV'25分享了世界模型：从数据闭环到训练闭环

公司智能驾驶发展路线 - 公司智能驾驶发展经历了从规则时代的轻图和无图，到基于AI的E2E+VLM快慢双系统，再到VLA司机大模型的演进 [6] - 在以上四个方案中，导航模块是重点突出的部分 [6] 数据闭环系统能力 - 公司数据闭环流程包括影子模式验证、数据触发回传、云端数据挖掘、自动标注、生成训练集训练模型及模型下发验证 [9] - 数据回传过程已实现一分钟内完成 [10] - 公司目前拥有15亿公里的驾驶数据，并通过200多个触发器生产15-45秒的片段数据 [10] - 端到端量产版本的MPI已达到220+，相较于24年7月底版本提升了约19倍 [12] 自动驾驶下半场战略转向 - 行业观点认为自动驾驶已进入下半场，需从数据闭环转向训练闭环的新模式 [17][20] - 数据闭环存在局限性，难以完全解决长尾场景收敛问题，例如交通管制、烟花燃放和突然变道等场景 [15] 训练闭环核心技术栈 - L4级训练循环的核心由VLA司机大模型、强化学习和世界模型构成 [22] - 轨迹优化结合了VLA的Diffusion技术和基于世界模型的强化学习 [22] - 强化学习范畴不仅包括RLHF，还涵盖RLVR和RLAIF [22] - 世界模型主要用于场景重建和新视角复原 [22] - 闭环自动驾驶训练关键技术栈包括区域级别仿真、合成数据和强化学习 [24] 仿真与生成技术进展 - 仿真依赖场景重建技术，具体包括视觉/Lidar重建、区域重建、多趟重建、场景编辑和风格迁移 [25] - 合成数据通过多模态生成技术获取，如视频/点云生成和神经渲染 [25] - 强化学习依赖于智能体、3D资产以及评测和奖励机制 [25] - 公司在重建到生成的方案上取得进展，例如Feedforward 3DGS技术可直接由视觉输入得到结果，无需点云初始化 [26] - 公司在重建领域有两篇顶会论文，联合重建与生成领域有一篇顶会论文，生成领域有三篇顶会论文 [26][29][31] - 生成技术的应用涵盖场景编辑、场景迁移和场景生成 [33] - 公司在数据配比方面进行了大量优化工作 [35] 训练闭环关键挑战与系统能力 - 可交互的智能体是实现训练闭环的关键挑战 [37] - 系统能力作为增强引擎，世界模型提供仿真环境，3D资产构建多样化场景，模拟智能体进行交互式行为建模，奖励模型提供准确反馈以增强泛化能力，GPU工程加速推理过程 [38]