SIGGRAPH Asia 2025｜30FPS普通相机恢复200FPS细节，4D重建方案来了

核心观点 - 提出了一种名为“4DSloMo”的软硬协同解决方案，通过“异步采集”与“视频扩散模型修复”相结合，实现了仅利用30 FPS的普通相机阵列，就能恢复出相当于100-200 FPS的高质量动态4D模型，为高速4D重建提供了一条低成本、高质量的新路径 [2][3] 硬件革新：异步捕捉 - 核心思路是突破单个相机速度瓶颈，通过让多个相机协同工作，实现“接力式”拍摄 [6] - 具体方案是人为给不同相机或相机组设置微小启动延迟，进行“错峰拍摄”，从而在时间维度上获得更密集的信息 [6] - 例如，8台25 FPS的相机，若分成4组交替启动，可实现100 FPS的有效捕捉帧率；分成8组甚至能达到200 FPS，整个过程无需额外硬件成本 [8] 软件革新：视频扩散模型修复 - 异步捕捉带来了“稀疏视角”问题，导致初步重建结果产生“浮块”等视觉伪影 [10] - 为解决此问题，训练了一个专门用于修复4D重建伪影的视频扩散模型，其核心功能是接收含伪影的视频输入，并输出精修后的高质量视频 [13] - 该模型利用输入视频提供的时空上下文作为引导，专注于去除伪影并补全细节，其优势在于能保证修复结果的“时间一致性”，避免逐帧修复带来的纹理闪烁等问题 [13] - 通过在高质量4D数据上模拟异步捕捉过程生成训练数据集，并对大规模预训练视频模型进行微调，使其学习从伪影输入到清晰输出的映射关系 [13] 整体流程与框架 - 方法构建了一个迭代式的“重建-优化”框架，将硬件捕捉与AI算法相结合 [14] - 整体流程为：异步视频 → 初步重建 → 视频增强 → 优化4D模型 [17] - 具体步骤包括：1) 利用异步捕捉数据重建初步的4D高斯模型（存在伪影）[20]；2) 用初步模型渲染出含伪影的视频作为扩散模型输入 [20]；3) 将渲染视频送入视频扩散模型进行增强，去除伪影并提升质量 [15]；4) 将增强后的高质量视频作为新的监督信号，进一步优化4D高斯模型，提升最终重建质量 [15] 方法效果与验证 - 在DNA-Rendering和Neural3DV两大公开数据集的测试中，该方法在PSNR、SSIM和LPIPS三项核心指标上超越了K-Planes、4DGS、GS4D等多种当前顶尖方法 [19] - 具体数据：在DNA-Rendering数据集上，PSNR为26.76，SSIM为0.845，LPIPS为0.293；在Neural3DV数据集上，PSNR为33.48，SSIM为0.951，LPIPS为0.134，均优于对比方法 [21] - 通过搭建包含12个25 FPS相机的真实多视角捕捉系统进行验证，证明该方法在真实、复杂的异步捕捉环境下，依然能够稳健地重建出高质量、时空一致的4D内容 [22]