原生3D生成模型

搜索文档
无需NeRF/高斯点后处理,视频秒变游戏模型成现实!新方法平均每帧仅需60秒 | ICCV 2025
量子位· 2025-07-19 13:15
技术突破 - KAUST研究团队提出V2M4方法,可从单目视频直接生成高质量4D网格动画资源,无需NeRF/高斯点后处理,可直接导入游戏/图形引擎[1][6] - 该方法构建了多阶段流程,涵盖相机轨迹恢复、外观优化、拓扑统一、纹理合成等关键步骤,大幅提升动画与游戏内容生成效率[2] - 论文已被ICCV 2025正式接收[3] 技术优势 - 生成的外观和结构高度还原,平均每帧仅需约60秒处理,比现有方法显著提速[4] - 支持长视频处理,在300帧时长的视频上表现优异[4] - 解决了传统动画制作依赖多摄像头、动捕设备、人工建模等高成本手段的问题[4] - 克服了隐式方法如NeRF难以直接输出拓扑一致的显式网格的缺点[4] 技术细节 - 设计了三阶段相机估计策略,通过重建每帧视频的相机视角,将"相机运动"转化为"网格运动"[10][11] - 引入条件嵌入微调策略,优化生成网格外观与输入视频的一致性[13] - 采用候选相机采样+DreamSim评分、DUSt3R点云辅助估计、粒子群优化+梯度下降精调等方法优化相机参数[15] - 引入逐帧配准与拓扑统一机制,确保所有帧网格在拓扑层面实现完全一致[16] - 构建共享的全局纹理贴图,确保动画过程中外观的一致性[17] 应用前景 - 生成的4D动画文件可直接用于图形/游戏引擎[6] - 结果被导出为符合GLTF标准的动画文件,可直接导入Blender等主流图形与游戏引擎进行编辑与复用[18] - 在视觉效果方面,V2M4生成的网格在渲染细节、法线结构与跨帧一致性上表现更出色[21]