理想通过AI产品经理与数据部门来让智驾模型自我迭代闭环

论文核心观点 - 公司发布了一项名为CorrectAD的自动驾驶端到端规划自校正智能体系统该系统通过模拟产品经理与数据部门的角色构建了一个能够理解错误原因、针对性生成高保真训练数据并实现全自动迭代优化的闭环旨在解决自动驾驶的长尾问题[1] - 该系统的核心思路是从传统的“找数据”转变为“造数据” 通过理解事故原因并针对性生成大量类似场景来训练模型[2] - 系统追求数据分布的对齐通过迭代使生成的数据分布越来越接近真实世界最难处理的长尾分布其生成过程受到三维布局等强约束以确保生成的视频符合真实物理关系[3] 系统架构与角色模拟 - PM-Agent模拟产品经理角色核心职责是深刻理解错误原因并提出所需数据而非简单识别错误[1] - DriveSora被比作数据部门其职能是根据PM-Agent的需求基于DiT架构生成高保真的精准可控训练数据解决了传统生成模型胡乱发挥的问题[1] 数据生成技术：DriveSora - DriveSora采用了三重控制开关以确保生成数据的精准可控：文本控制（描述场景条件）、布局控制（通过ControlNet注入3D边框和高精地图信息确保空间位置绝对准确）、多视角同步机制（确保车身多个摄像头视角的空间一致性）[4] - 在生成过程中使用了分类器自由引导策略可独立调节前景、背景和文本描述的权重以针对性地生成多样化训练数据（例如针对路面纹理）[5] - 调整DriveSora参数需要8张A800 GPU运行72小时使用L40S卡生成一个案例需要4秒[5] 系统工作流程：全自动迭代闭环 - CorrectAD是一个无需人类干预的全自动迭代闭环系统其流程包括：失效捕获（模型发生碰撞）、归因分析（PM-Agent判断原因并转化为文本描述）、样本扩充（DriveSora根据描述和现场骨架生成N条新视频数据）、混合微调（合成数据与原始数据混合训练）、验证（模型学会正确应对）[6] - 系统迭代的本质是追求生成数据分布与真实失败案例分布的对齐衡量指标为Hellinger距离（D-D值） D-D值越小说明生成数据越接近真实事故分布[7] - 论文展示了三次迭代效果：第一轮迭代D-D值为0.15 第二轮降至0.11 第三轮进一步降至0.09[8] 系统迭代性能表现 - 系统在碰撞率和轨迹偏差（L2 Error）上随迭代持续改善 L2 Error衡量规划轨迹与真实记录轨迹之间的距离误差[9] - 第一轮迭代轨迹偏差平均1.06米碰撞率平均26%[10] - 第二轮迭代轨迹偏差平均降至1.04米碰撞率平均降至22%[10] - 第三轮迭代轨迹偏差平均降至0.98米碰撞率平均降至19%[10] - 论文指出当前CorrectAD仅将碰撞视为失败案例未考虑违规变道、压线等交通违规情况[10] 实际应用与未来方向 - 公司相关人士在发布会上展示了经过18轮以上迭代来实现无碰撞左转过路口的应用案例[11]