3D Gaussians

搜索文档
一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
机器之心· 2025-06-10 16:41
3D场景生成技术综述 核心观点 - 南洋理工大学S-Lab系统梳理300+篇论文,将3D场景生成方法划分为四大技术范式:程序化生成、基于神经网络的3D表示生成、图像驱动生成、视频驱动生成 [2] - 领域自2021年起进入爆发期,主要驱动力为扩散模型、NeRF、3D Gaussians等新技术涌现 [4] - 当前技术面临生成能力不均衡、3D表征缺陷、数据瓶颈、评估标准缺失四大挑战 [16] - 未来发展方向聚焦高保真生成、物理约束引入、交互式场景、感知-生成一体化四大方向 [12][18] 技术路线分类 程序化生成 - 通过预定义规则/LLM先验自动构建复杂环境(如城市、地形),具备空间一致性优势 [8] - 细分方法包括基于规则生成(地形)、约束优化生成(室内)、LLM辅助生成(布局控制) [8] 神经网络3D表示生成 - 直接生成场景图/参数或3D表征(点云/NeRF/3D高斯),具备强三维理解能力 [8] 图像驱动生成 - 基于2D图像生成模型重建3D结构,包括整体生成(全景图)和迭代生成(图像序列) [9][14] 视频驱动生成 - 融合时空一致性,分为一阶段(端到端)和两阶段(时空分离控制)方法 [9][15] 性能评估维度 - 七大关键指标:真实感、多样性、视角一致性、语义一致性、效率、可控性、物理真实性 [7] - 不同方法在可控性/真实性/效率/一致性之间存在显著权衡关系 [7] 下游应用领域 - 覆盖3D场景编辑、人-场景交互、具身智能、机器人、自动驾驶等关键场景 [2] 未来技术突破方向 - 高保真生成需协调几何/纹理/光照/多视角一致性,提升材质建模与细节捕捉能力 [12] - 物理约束引入需结合可微分物理模拟器,保障物体移动/摆放符合真实规律 [18] - 交互式场景需实现动态响应能力,理解物体可用性/因果关系/多智能体逻辑 [18] - 感知-生成一体化需构建统一架构,双向增强场景理解与生成准确性 [18]