Workflow
最新世界模型!WorldSplat:用于自动驾驶的高斯中心前馈4D场景生成(小米&南开)
自动驾驶之心·2025-10-02 11:04

核心观点 - WorldSplat是一种前馈式4D生成框架,将生成式扩散与显式3D重建相融合,用于自动驾驶场景合成[6] - 该方法通过4D感知潜在扩散模型生成像素对齐的4D高斯分布,再通过增强型扩散模型优化新视角视频,实现高保真、具备时空一致性的多轨迹驾驶视频生成[4][6] - 在基准数据集上的实验表明,WorldSplat在FVDmulti指标上达到16.57,FIDmulti指标达到4.14,显著优于现有方法[31] 技术框架 - 框架包含三个关键模块:4D感知潜在扩散模型、潜在高斯解码器和增强型扩散模型[10] - 4D感知潜在扩散模型以边界框、道路草图、文本描述及自车轨迹为条件,生成多模态潜变量[14][16] - 潜在高斯解码器从潜变量中预测像素对齐的3D高斯分布,并聚合为4D高斯表示[20][22] - 增强型扩散模型对基于高斯分布渲染的视频进行优化,提升细节真实感和时间连贯性[24][27] 算法创新 - 提出动态感知高斯解码器,能直接从多模态潜变量推断精确的3D高斯分布,支持多达48个输入视角[12][21] - 采用静-动态分解方案,将高斯分布划分为静态背景与动态目标,实现4D场景重建[20][22] - 引入混合条件策略,融合退化视角与高质量视角,提升生成保真度与可控性[27] 性能表现 - 在主实验对比中,WorldSplat在FVDmulti指标上达到16.57,较DriveDreamer-2的55.70提升约70%[31] - 在新视角合成任务中,横向偏移±4m时FID T指标为13.38,显著优于Street Gaussian的67.44和OmniRe的67.36[32] - 在下游任务评估中,方法在mIoU指标上达到38.49,较MagicDrive-V2的20.40提升约89%[35] 应用价值 - 支持丰富条件输入包括道路草图、文本描述、动态目标放置与自车轨迹,成为高可控性驾驶模拟器[6] - 生成的合成数据能提升下游感知模型性能,使mAP指标从34.5提升至38.5,相对提升11.6%[35] - 框架无需逐场景优化,可直接沿任意用户定义相机轨迹渲染新视角视频,支持灵活闭环评估[6][23]