GeoDrive

搜索文档
理想新一代世界模型首次实现实时场景编辑与VLA协同规划
理想TOP2· 2025-06-11 10:59
核心观点 - GeoDrive是由北京大学、伯克利人工智能研究院与理想汽车联合开发的自动驾驶世界模型系统,首创性地将三维点云渲染过程纳入生成范式,显著提升空间一致性与可控性 [11] - 模型在轨迹跟踪误差上降低42%,视频质量指标(LPIPS/PSNR/SSIM/FID/FVD)全面超越Vista等基线模型,且仅需5小时训练数据(对比基线1740小时) [19][34] - 首次实现实时视觉输入与预测建模的融合,构建支持VLA(视觉-语言-动作)协同规划的交互式仿真环境 [9][10] 技术创新 几何驱动架构 - 采用MonST3R网络从单帧RGB图像精准估计点云和相机位姿,在动态城市场景中减少38%姿态误差 [26][27] - 通过投影几何技术将3D点云沿用户指定轨迹渲染,使用z-buffering处理遮挡,生成几何引导信号 [28][29] 动态编辑机制 - 突破静态渲染局限,通过2D边界框注释调整可移动物体位置,增强多车交互场景的动态合理性 [12][31] - 设计物理引导编辑模块,在明确运动约束下变换代理外观,确保物理合理的交互 [18][31] 训练优化 - 采用冻结主干模型+轻量化适配器架构,仅需5小时训练数据即达到SOTA性能(对比DriveDreamer等模型需1740小时) [8][34][37] - 双分支控制策略:条件编码器提取渲染潜变量特征,以结构化方式选择性融合进冻结DiT主干,保持3D结构保真度 [33] 性能表现 定量指标 - 在NuScenes数据集上,FID指标达4.1(对比Vista 6.6/GEM 10.5),FVD指标61.6(对比Vista 167.7) [37] - 新视角合成任务中,左移3米轨迹的FID 67.13/FVD 1245.23,显著优于StreetGaussian的63.84/1438.89 [40] 定性优势 - 生成视频的光流误差(ADE)仅1.62×10²,较Vista(2.77×10²)降低41.5% [34] - 在遮挡处理和动态物体交互合理性上优于基线,避免Vista模型出现的轨迹错位和碰撞问题 [35][36] 行业意义 - 首次实现驾驶世界模型中实时场景编辑与VLA协同规划,支持动态物体插入/替换/运动控制等交互功能 [9][10] - 为自动驾驶仿真测试提供高保真环境生成方案,解决传统方法在3D几何一致性和遮挡处理上的缺陷 [14][17] - 验证了轻量化适配器+冻结主干的训练范式在数据效率上的突破,降低行业研发门槛 [8][34]