Image-to-3D Generation
搜索文档
将3DGS嵌入Diffusion - 高速高分辨3D生成框架(ICCV'25)
自动驾驶之心· 2025-11-02 00:04
核心技术:DiffusionGS 算法框架 - 提出一种名为 DiffusionGS 的全新单阶段 3D 生成框架,将 3D Gaussian Splatting 嵌入到 pixel-level 的 Diffusion 模型中,以保持生成结果的 3D 视角一致性 [2] - 该框架在 Diffusion 的每一个时间步都预测一个 3D Gaussian 点云,能够同时用于物体中心化生成和大尺度场景级生成 [2] - 模型在 256x256 和 512x512 分辨率下的生成速度分别为 6 秒和 24 秒,比 Hunyuan-v2.5 快 7.5 倍,参数量仅为 1 个多 G,训练需 16-32 张 A100 显卡 [16] 技术优势与创新点 - 设计了场景-物体混合训练策略,能够将来自不同数据集的物体和场景数据放在一起训练,学习更泛化的三维先验 [32] - 提出新的相机位姿控制条件方法 Reference-Point Plucker Coordinate,通过引入参考点信息增强模型的空间感知能力 [32][37] - 方法在单视角场景重建时无需借助单目深度估计器,本身具备深度感知能力 [32] 性能表现与实验结果 - 在物体级生成任务上,比当前最优方法在 PSNR 指标上高 2.20 dB,FID 分数优 23.25 [32] - 定量实验显示,该方法在不借助 2D 图像扩散先验和单目深度估计器的情况下,达到了更好的测试指标和更快的生成速度 [40] - 视觉对比结果表明,该方法生成的新视角图像更清晰,三维一致性更好,伪影和模糊更少 [44] 应用前景与开源情况 - 该技术可应用于 AR/VR、电影制作、机器人、动画、游戏等领域 [20] - 目前训练、测试、评估代码已经开源,并集成了一行 pipeline 直接运行的代码,未来将包括高斯点云转 mesh 功能 [5][7] - 项目提供了代码、模型、论文链接及项目主页,包含视频和点云交互式渲染结果 [7][8]