Epona

搜索文档
分钟级长视频生成!地平线Epona:自回归扩散式的端到端自动驾驶世界模型(ICCV'25)
自动驾驶之心· 2025-07-07 20:17
自动驾驶世界模型Epona的核心创新 - 提出自回归扩散世界模型框架Epona,融合扩散模型与自回归模型优势,支持分钟级长视频生成、轨迹控制生成和实时运动规划[1][2] - 两项关键架构创新:解耦时空分解(分离时间动态建模与细粒度生成)、模块化轨迹与视频预测(端到端整合运动规划与视觉建模)[2][18] - 引入链式前向训练策略(CoF),解决自回归误差累积问题,FVD指标提升7.4%,支持600帧(2分钟)长视频生成[23][26][29] 技术架构与性能表现 - **解耦设计**:时序建模采用多模态时空Transformer(MST),空间生成采用双-单流DiT结构,支持逐帧自回归生成[20] - **多模态生成**:TrajDiT分支生成3秒连续轨迹(20Hz实时),VisDiT分支生成下一帧图像(4090 GPU上2秒/帧)[21][25] - **基准测试优势**:在NuPlan数据集上FVD降至82.8(优于Vista的89.4),NAVSIM轨迹预测碰撞率0.36%(优于UniAD的0.31%)[29][30] 行业应用价值 - 突破现有世界模型局限:解决传统视频扩散模型固定长度限制(如GAIA-2)与自回归Transformer模型离散token质量损失(如GAIA-1)[15] - 支持实际场景需求:可应用于轨迹控制视频生成(定制化驾驶模拟)和轻量化实时规划(仅启用TrajDiT分支)[21][28] - 参数量2.5B,计算效率优于NVIDIA Cosmos等同类模型,在消费级硬件(4090)上可部署[25][32] 行业技术趋势 - 世界模型成为下一代端到端自动驾驶关键路径,减少对感知模块与标注数据的依赖[6] - 自回归+扩散的混合架构成为前沿方向,Epona首次实现连续表征下的长序列自回归生成[9][33] - 当前行业痛点包括长时序一致性(如Cosmos限于短视频)与实时规划能力(如Vista缺乏轨迹控制),Epona提供统一解决方案[17][26][32]
自动驾驶论文速递 | 世界模型、VLA综述、端到端等
自动驾驶之心· 2025-07-02 15:34
世界模型Epona - 地平线、清华、北大等团队在ICCV'25中稿的自回归扩散世界模型工作,可以不依赖视频预测独立输出轨迹规划 [2] - 算法框架采用自回归扩散模型,实现长时间生成和实时轨迹规划 [3] - 实验结果:FID T为7.5,FVD T为82.8,最大持续时间达120秒/600帧,显著优于对比模型DriveGAN、DriveDreamer等 [5] - 核心优势:实现2分钟长时间生成,20Hz实时轨迹规划,连续视觉标记器保留丰富场景细节 [6] 视觉-语言-动作模型综述 - 麦吉尔大学、小米等团队发布VLA模型综述,涵盖DriveGPT-4、ADriver-I等15种模型 [13] - 模型对比表显示:输入类型包括单/多模态,数据集涵盖BDD-X、nuScenes等,输出包含轨迹规划(LLC/Traj) [18] - 最新模型如OpenDriveVLA(2025)支持2D/3D对齐,ORION(2025)实现连续动作推理 [18] StyleDrive基准测试 - 清华AIR等团队提出驾驶风格感知的端到端自动驾驶评测框架 [20] - 基于规则的驾驶风格分类标准覆盖10种交通场景,包括车道跟随、交叉路口等场景的动态特征 [22] - 实验结果:DiffusionDrive-Style模型表现最佳,SM-PDMS达84.10,优于TransFuser(81.09)和WoTE(81.38) [23] 技术社区推广 - 知识星球提供自动驾驶全栈学习路线图、硬件/代码资料及行业招聘信息 [9] - 社区目标3年内建成万人规模,已吸引华为天才少年等专家加入,形成"课程+硬件+问答"闭环 [25]