分钟级长视频生成！地平线Epona：自回归扩散式的端到端自动驾驶世界模型（ICCV'25）

自动驾驶世界模型Epona的核心创新 - 提出自回归扩散世界模型框架Epona，融合扩散模型与自回归模型优势，支持分钟级长视频生成、轨迹控制生成和实时运动规划[1][2] - 两项关键架构创新：解耦时空分解（分离时间动态建模与细粒度生成）、模块化轨迹与视频预测（端到端整合运动规划与视觉建模）[2][18] - 引入链式前向训练策略（CoF），解决自回归误差累积问题，FVD指标提升7.4%，支持600帧（2分钟）长视频生成[23][26][29] 技术架构与性能表现 - 解耦设计：时序建模采用多模态时空Transformer（MST），空间生成采用双-单流DiT结构，支持逐帧自回归生成[20] - 多模态生成：TrajDiT分支生成3秒连续轨迹（20Hz实时），VisDiT分支生成下一帧图像（4090 GPU上2秒/帧）[21][25] - 基准测试优势：在NuPlan数据集上FVD降至82.8（优于Vista的89.4），NAVSIM轨迹预测碰撞率0.36%（优于UniAD的0.31%）[29][30] 行业应用价值 - 突破现有世界模型局限：解决传统视频扩散模型固定长度限制（如GAIA-2）与自回归Transformer模型离散token质量损失（如GAIA-1）[15] - 支持实际场景需求：可应用于轨迹控制视频生成（定制化驾驶模拟）和轻量化实时规划（仅启用TrajDiT分支）[21][28] - 参数量2.5B，计算效率优于NVIDIA Cosmos等同类模型，在消费级硬件（4090）上可部署[25][32] 行业技术趋势 - 世界模型成为下一代端到端自动驾驶关键路径，减少对感知模块与标注数据的依赖[6] - 自回归+扩散的混合架构成为前沿方向，Epona首次实现连续表征下的长序列自回归生成[9][33] - 当前行业痛点包括长时序一致性（如Cosmos限于短视频）与实时规划能力（如Vista缺乏轨迹控制），Epona提供统一解决方案[17][26][32]