自动驾驶世界模型

搜索文档
分钟级长视频生成!地平线Epona:自回归扩散式的端到端自动驾驶世界模型(ICCV'25)
自动驾驶之心· 2025-07-07 20:17
写在前面 & 笔者的个人理解 扩散模型在自动驾驶场景视频生成中已经展现出比较有前景的视觉生成质量。然而,现有的基于视频扩散的世界模型在灵活长度、长时序预测以及轨迹规划方面 仍存在不足。这是因为传统视频扩散模型依赖于对固定长度帧序列的全局联合分布建模,而非逐步构建每个时间下的局部化分布。本研究提出 Epona ,一种自回 归扩散世界模型,通过两项关键创新实现局部时空分布建模:1) 解耦的时空分解 ,将时间动态建模与细粒度未来世界生成分离;2) 模块化的轨迹与视频预测 ,通过端到端框架无缝整合运动规划与视觉建模。本文的架构通过引入一种新的"链式前向训练策略"(chain-of-forward training strategy),在实现高分辨率、长持 续时间生成的同时解决了自回归循环中的误差累积问题。实验结果表明,与现有方法相比,Epona在FVD指标上提升7.4%,预测时长可达数分钟。该世界模型进一 步可作为实时端到端规划器,在NAVSIM基准测试中优于现有端到端规划器。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 地平线联合 ...
理想新一代世界模型首次实现实时场景编辑与VLA协同规划
理想TOP2· 2025-06-11 10:59
以下文章来源于自动驾驶之心 ,作者Anthony Chen等 自动驾驶之心 . 在TOP2 翻阅的数十篇理想论文中,这是第一次论文作者出现了非大陆拼音名,分别为Anthony Chen和Kurt Keutzer。 论文核心4点突破: 几何条件驱动:用3D渲染替代数值控制信号,解决动作漂移问题。 动态编辑机制:在静态点云中注入可控运动,平衡效率与灵活性。 最小化训练代价:冻结主干模型 + 轻量化适配器,实现数据高效训练。 自动驾驶开发者社区,关注自动驾驶、计算机视觉、感知融合、BEV、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向! 2025年5月28日北大&理想&伯克利 发布GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control。 Anthony Chen,Wenzhao Zheng, Yida Wang为同等贡献,Shanghang Zhang为通讯作者。 Anthony Chen同时是北大和理想的,Wenzhao Zheng是伯克利的,Yida Wang 是理想的。Shanghang Zh ...