核心观点 - 提出了一种名为“4DSloMo”的软硬协同解决方案,通过“异步采集”与“视频扩散模型修复”相结合,实现了仅利用30 FPS的普通相机阵列,就能恢复出相当于100-200 FPS的高质量动态4D模型,为高速4D重建提供了一条低成本、高质量的新路径 [2][3] 硬件革新:异步捕捉 - 核心思路是突破单个相机速度瓶颈,通过让多个相机协同工作,实现“接力式”拍摄 [6] - 具体方案是人为给不同相机或相机组设置微小启动延迟,进行“错峰拍摄”,从而在时间维度上获得更密集的信息 [6] - 例如,8台25 FPS的相机,若分成4组交替启动,可实现100 FPS的有效捕捉帧率;分成8组甚至能达到200 FPS,整个过程无需额外硬件成本 [8] 软件革新:视频扩散模型修复 - 异步捕捉带来了“稀疏视角”问题,导致初步重建结果产生“浮块”等视觉伪影 [10] - 为解决此问题,训练了一个专门用于修复4D重建伪影的视频扩散模型,其核心功能是接收含伪影的视频输入,并输出精修后的高质量视频 [13] - 该模型利用输入视频提供的时空上下文作为引导,专注于去除伪影并补全细节,其优势在于能保证修复结果的“时间一致性”,避免逐帧修复带来的纹理闪烁等问题 [13] - 通过在高质量4D数据上模拟异步捕捉过程生成训练数据集,并对大规模预训练视频模型进行微调,使其学习从伪影输入到清晰输出的映射关系 [13] 整体流程与框架 - 方法构建了一个迭代式的“重建-优化”框架,将硬件捕捉与AI算法相结合 [14] - 整体流程为:异步视频 → 初步重建 → 视频增强 → 优化4D模型 [17] - 具体步骤包括:1) 利用异步捕捉数据重建初步的4D高斯模型(存在伪影)[20];2) 用初步模型渲染出含伪影的视频作为扩散模型输入 [20];3) 将渲染视频送入视频扩散模型进行增强,去除伪影并提升质量 [15];4) 将增强后的高质量视频作为新的监督信号,进一步优化4D高斯模型,提升最终重建质量 [15] 方法效果与验证 - 在DNA-Rendering和Neural3DV两大公开数据集的测试中,该方法在PSNR、SSIM和LPIPS三项核心指标上超越了K-Planes、4DGS、GS4D等多种当前顶尖方法 [19] - 具体数据:在DNA-Rendering数据集上,PSNR为26.76,SSIM为0.845,LPIPS为0.293;在Neural3DV数据集上,PSNR为33.48,SSIM为0.951,LPIPS为0.134,均优于对比方法 [21] - 通过搭建包含12个25 FPS相机的真实多视角捕捉系统进行验证,证明该方法在真实、复杂的异步捕捉环境下,依然能够稳健地重建出高质量、时空一致的4D内容 [22]
SIGGRAPH Asia 2025|30FPS普通相机恢复200FPS细节,4D重建方案来了
机器之心·2025-12-14 12:53