GPT-style Autoregressive Model

搜索文档
地平线&清华Epona:自回归式世界端到端模型~
自动驾驶之心· 2025-08-13 07:33
核心观点 - 提出一个统一框架Epona,能同时生成长时高分辨率视频(512×1024,2分钟)和端到端输出连续轨迹,解决现有方法在长时程预测与实时规划上的局限[5][12] - 首创解耦时空建模架构:GPT风格Transformer处理时间动态性,双Diffusion Transformer分别负责空间渲染(VisDiT)和轨迹生成(TrajDiT)[12][18] - 实现20Hz实时轨迹规划,推理算力降低90%,支持多模态异步生成(3秒轨迹与下一帧图像并行)[12] 方法论 模型架构 - **Multimodal Spatiotemporal Transformer (MST)**:1.3B参数,12层结构,将历史驾驶场景与动作序列编码为隐式表征,压缩率提升16倍[16][26] - **Trajectory Planning Diffusion Transformer (TrajDiT)**:50M参数,采用Dual-Single-Stream DiT结构,独立处理历史隐变量与轨迹数据,支持高斯噪声迭代去噪[18] - **Next-frame Prediction Diffusion Transformer (VisDiT)**:1.2B参数,结构类似TrajDiT但集成action control,通过DCAE解码器生成图像[21] 训练策略 - **Chain-of-Forward Training**:周期性用预测帧替代真值输入,抑制自回归漂移问题,通过速度估算加速去噪过程[24] - **Temporal-aware DCAE Decoder**:在32倍下采样的DCAE中增加时空注意力层,解决视频闪烁问题,微调时仅训练解码器[25] 性能表现 视频生成 - 在FID(6.9 vs 7.5)和FVD(82.8 vs 89.4)指标上优于Vista等基线,支持120秒/600帧生成长度,远超DriveDreamer(4秒/48帧)和GAIA-1(40秒/400帧)[28] 轨迹规划 - 在NC(97.9 vs 97.8)、DAC(95.1 vs 91.9)等6项指标上接近人类水平(100),显著超越UniAD、TransFuser等相机/LiDAR融合方案[34] 技术拓展性 - 框架可延伸至闭环仿真、强化学习、行为因果解释,但当前仅支持单相机输入,未解决多传感器一致性与点云生成问题[36] 行业应用 - 自动驾驶领域首个融合图像生成与轨迹预测的世界模型,参数量达2.5B(MST+VisDiT占95%),训练资源为48张A100 GPU/60万次迭代[26][36]