驾驶世界模型

搜索文档
ICCV‘25 | 华科提出HERMES:首个统一驾驶世界模型!
自动驾驶之心· 2025-07-25 18:47
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 华中科技大学&旷视科技 最新的工作! 首个统一驾 驶世界模型HERMES,BEV+世界查询协同优化3D驾驶场景,生成误差降三成! 如果您有相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Xin Zhou等 编辑 | 自动驾驶之心 概述 自动驾驶领域中,驾驶世界模型(DWMs)已成为核心工具,但现有模型存在明显割裂:一类专注于场景 生成,能预测环境演化(figure 1(a)),却难以解读、描述环境或回答相关问题;另一类以视觉语言模型 (VLMs)为代表,擅长场景理解,可处理复杂查询、生成描述(figure 1(b)),但缺乏对未来场景的预测 能力。 为打破这种割裂,本文提出HERMES——一个能同时实现3D场景理解与未来场景生成的统一框架(figure 1(d))。其核心创新在于通过BEV表示整合多视图空间信息,并引入"世界查询"机制, ...
分钟级长视频生成!地平线Epona:自回归扩散式的端到端自动驾驶世界模型(ICCV'25)
自动驾驶之心· 2025-07-07 20:17
自动驾驶世界模型Epona的核心创新 - 提出自回归扩散世界模型框架Epona,融合扩散模型与自回归模型优势,支持分钟级长视频生成、轨迹控制生成和实时运动规划[1][2] - 两项关键架构创新:解耦时空分解(分离时间动态建模与细粒度生成)、模块化轨迹与视频预测(端到端整合运动规划与视觉建模)[2][18] - 引入链式前向训练策略(CoF),解决自回归误差累积问题,FVD指标提升7.4%,支持600帧(2分钟)长视频生成[23][26][29] 技术架构与性能表现 - **解耦设计**:时序建模采用多模态时空Transformer(MST),空间生成采用双-单流DiT结构,支持逐帧自回归生成[20] - **多模态生成**:TrajDiT分支生成3秒连续轨迹(20Hz实时),VisDiT分支生成下一帧图像(4090 GPU上2秒/帧)[21][25] - **基准测试优势**:在NuPlan数据集上FVD降至82.8(优于Vista的89.4),NAVSIM轨迹预测碰撞率0.36%(优于UniAD的0.31%)[29][30] 行业应用价值 - 突破现有世界模型局限:解决传统视频扩散模型固定长度限制(如GAIA-2)与自回归Transformer模型离散token质量损失(如GAIA-1)[15] - 支持实际场景需求:可应用于轨迹控制视频生成(定制化驾驶模拟)和轻量化实时规划(仅启用TrajDiT分支)[21][28] - 参数量2.5B,计算效率优于NVIDIA Cosmos等同类模型,在消费级硬件(4090)上可部署[25][32] 行业技术趋势 - 世界模型成为下一代端到端自动驾驶关键路径,减少对感知模块与标注数据的依赖[6] - 自回归+扩散的混合架构成为前沿方向,Epona首次实现连续表征下的长序列自回归生成[9][33] - 当前行业痛点包括长时序一致性(如Cosmos限于短视频)与实时规划能力(如Vista缺乏轨迹控制),Epona提供统一解决方案[17][26][32]
理想新一代世界模型首次实现实时场景编辑与VLA协同规划
理想TOP2· 2025-06-11 10:59
核心观点 - GeoDrive是由北京大学、伯克利人工智能研究院与理想汽车联合开发的自动驾驶世界模型系统,首创性地将三维点云渲染过程纳入生成范式,显著提升空间一致性与可控性 [11] - 模型在轨迹跟踪误差上降低42%,视频质量指标(LPIPS/PSNR/SSIM/FID/FVD)全面超越Vista等基线模型,且仅需5小时训练数据(对比基线1740小时) [19][34] - 首次实现实时视觉输入与预测建模的融合,构建支持VLA(视觉-语言-动作)协同规划的交互式仿真环境 [9][10] 技术创新 几何驱动架构 - 采用MonST3R网络从单帧RGB图像精准估计点云和相机位姿,在动态城市场景中减少38%姿态误差 [26][27] - 通过投影几何技术将3D点云沿用户指定轨迹渲染,使用z-buffering处理遮挡,生成几何引导信号 [28][29] 动态编辑机制 - 突破静态渲染局限,通过2D边界框注释调整可移动物体位置,增强多车交互场景的动态合理性 [12][31] - 设计物理引导编辑模块,在明确运动约束下变换代理外观,确保物理合理的交互 [18][31] 训练优化 - 采用冻结主干模型+轻量化适配器架构,仅需5小时训练数据即达到SOTA性能(对比DriveDreamer等模型需1740小时) [8][34][37] - 双分支控制策略:条件编码器提取渲染潜变量特征,以结构化方式选择性融合进冻结DiT主干,保持3D结构保真度 [33] 性能表现 定量指标 - 在NuScenes数据集上,FID指标达4.1(对比Vista 6.6/GEM 10.5),FVD指标61.6(对比Vista 167.7) [37] - 新视角合成任务中,左移3米轨迹的FID 67.13/FVD 1245.23,显著优于StreetGaussian的63.84/1438.89 [40] 定性优势 - 生成视频的光流误差(ADE)仅1.62×10²,较Vista(2.77×10²)降低41.5% [34] - 在遮挡处理和动态物体交互合理性上优于基线,避免Vista模型出现的轨迹错位和碰撞问题 [35][36] 行业意义 - 首次实现驾驶世界模型中实时场景编辑与VLA协同规划,支持动态物体插入/替换/运动控制等交互功能 [9][10] - 为自动驾驶仿真测试提供高保真环境生成方案,解决传统方法在3D几何一致性和遮挡处理上的缺陷 [14][17] - 验证了轻量化适配器+冻结主干的训练范式在数据效率上的突破,降低行业研发门槛 [8][34]