3D重建

搜索文档
ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
机器之心· 2025-08-19 17:45
3DGS技术研究进展 - 3DGS技术在新视角合成与3D重建中实现实时照片级真实感渲染,但现有方法在建模含动态物体场景时精度不足,常导致渲染图像出现伪影[2] - 研究者提出RobustSplat解决方案,其核心设计包含延迟高斯生长策略和尺度级联掩码引导方法,前者优先优化静态场景结构,后者通过低分辨率特征相似度监督实现可靠初始动态掩码估计[2] 研究动机与方法 - 高斯致密化在3DGS中具有双重作用,既能增强场景细节表达,也会促使模型过早拟合动态区域导致伪影[6] - 研究动机源于通过调节致密化过程引入时机,平衡静态结构表达与动态干扰抑制,提出延迟高斯生长策略[8] - 采用含两层线性层的MLP作为网络架构,以DINOv2特征为输入输出瞬态掩码,因其在语义一致性和抗噪性方面表现优异[9][10] 技术实现细节 - 掩码MLP优化结合图像残差损失和特征余弦相似度损失,前者捕捉像素级动态干扰,后者增强语义级动态区域识别[12] - 延迟高斯生长策略推迟高斯致密化过程,优先完成静态场景结构优化,并通过掩码正则化减少静态区域误分类风险[13] - 尺度级联掩码引导先利用低分辨率特征相似性监督进行初始瞬态掩码估计,再过渡到高分辨率监督实现更精确预测[14] 实验结果 - 在NeRF On-the-go和RobustNeRF数据集上,RobustSplat在PSNR、SSIM、LPIPS等指标上全面领先基线方法[16] - 具体数据表现:在Android场景PSNR达24.62,SSIM 0.831;Crab2场景PSNR 34.88,SSIM 0.940;Yoda场景PSNR 35.14,SSIM 0.944[17] - 平均表现PSNR 29.36,SSIM 0.895,优于3DGS的26.21/0.864和WildGaussians的27.07/0.876[17] 研究总结 - 高斯致密化过程虽提升场景细节捕捉能力,但会生成额外高斯建模瞬态干扰,导致渲染伪影[19] - RobustSplat通过延迟高斯生长和尺度级联掩码引导有效减少瞬态物体导致的渲染伪影,在复杂场景中实现鲁棒且细节丰富的3D重建[21]
随手拍照片就能VR云旅游!无位姿、稀疏图像条件下实现稳定3D重建和新视角合成|港科广
量子位· 2025-07-31 12:23
3D重建技术突破 - 新算法RegGS可将零散2D图片拼接成厘米级精度的3D数字模型 效果可直接用于VR云旅游场景 [1][2] - 传统NeRF方法计算代价高且难以收敛 NoPose类前馈模型仅能处理极少图片 无法适应大规模场景 [3] - RegGS通过局部3D高斯表示注册与融合 解决了优化方法不鲁棒与前馈方法不灵活的核心矛盾 [4] 技术实现机制 - 采用高斯混合模型结构配准机制 避免依赖SfM初始化 适应图像输入数量少的现实环境 [6][8] - 引入熵正则化Mixture Wasserstein-2距离作为高斯分布对齐度量 在Sim(3)空间联合优化尺度/旋转/平移 [12] - 融合MW2距离/颜色一致性/深度一致性 构建由粗到细的3DGS配准模块 [12] 性能验证与应用场景 - 在RE10K和ACID数据集测试中 PSNR/SSIM/LPIPS指标全面领先主流方法 支持2×至32×不同输入帧数 [9] - 适用于UGC视频3D化 无人机航拍建图 历史图像还原等场景 对非结构化输入更具可行性 [13] - 相比传统SfM或Bundle Adjustment方法 不依赖全局可视性与特征匹配 结构性要求更低 [13] 技术局限性 - 当前性能受限于上游前馈模型生成质量 MW_2距离计算带来额外开销 [13]
李飞飞空间智能独角兽开源底层技术!AI生成3D世界在所有设备流畅运行空间智能的“着色器”来了
量子位· 2025-06-03 12:26
核心技术Forge渲染器 - Forge是一款Web端3D高斯泼溅渲染器,无缝集成three.js,实现完全动态和可编程的高斯泼溅渲染 [2] - 底层为GPU优化设计,地位相当于传统3D图形领域的基础组件"着色器" [3] - 支持多splat对象、多摄像头及实时动画/编辑,仅需极少代码即可启动 [4] 技术突破与行业定位 - 解决3D高斯溅射(3DGS)在传统渲染引擎中的兼容性问题,克服现有网络库的单对象限制、遮挡错误等缺陷 [7] - 采用类似现代着色器系统的可编程架构(Dyno函数块),支持程序化生成、修改Splat并转换为GLSL在GPU运行 [11][16] - 通过ForgeRenderer和高效bucket sort算法实现实时排序(画家算法),支持多视角同步渲染及用户可编程数据流水线 [13][14][15] 应用场景与战略规划 - 目标将多模态AI从二维提升至三维世界,2025年推出首款产品,覆盖游戏开发、影视制作等专业领域 [17] - 当前Forge定位为开发者工具组件,未来将扩展为面向艺术家、设计师的专业工具生态 [18] 技术评价与行业影响 - 联创Ben Mildenhall评价该技术"使开发者处理AI生成3D世界如同操作三角形网格" [5] - 3D高斯溅射已成为生成式AI和3D重建主流方案,Forge通过实时交互能力推动技术落地 [6][12]
美图公司AI视觉领域竞争力升级:七项图像编辑成果出炉
证券日报· 2025-04-09 16:40
文章核心观点 美图公司旗下美图影像研究院联合多所高校的七项研发成果入选顶级学术会议,聚焦图像编辑领域,多项技术已落地应用,公司在核心视觉领域竞争力提升,未来增长潜力值得期待 [2][4] 研发成果入选情况 - 五项研发成果入选IEEE国际计算机视觉与模式识别会议CVPR 2025,投稿超13000篇,录用比例22.1% [2] - 两项研发成果入选国际人工智能促进协会主办的顶级学术会议AAAI 2025,收到12957篇有效投稿,录取率23.4% [2] 研发成果领域分布 - 三项生成式AI技术成果、三项分割技术成果和一项3D重建技术成果 [2] 技术成果落地应用 - 生成式AI技术GlyphMastero落地美图秀秀无痕改字功能 [3] - 生成式AI技术MTADiffusion落地AI素材生成器WHEE [3] - 生成式AI技术StyO落地美图秀秀AI创意和美颜相机AI玩法 [4] - 三项分割领域技术突破应用于电商设计、图像编辑与处理、人像美化等场景 [4] - 3D重建成果EVPGS在新视角生成、增强现实、3D内容生成、虚拟数字人等领域应用需求激增 [4] 公司发展情况 - 基于长期储备的AI能力,深度结合前沿技术,打造多款行业领先的影像与设计AI应用 [4] - 核心视觉领域竞争力持续提升,驱动旗下产品能力迭代,带动用户粘性和付费意愿提升 [4]