Workflow
3D Gaussian Splatting (3DGS)
icon
搜索文档
NeurIPS Spotlight|GHAP:把3DGS“剪枝”变成“重建更小的高斯世界”
机器之心· 2025-11-14 17:30
技术核心观点 - 提出一种名为Gaussian-Herding-across-Pens (GHAP)的新方法,用于3D Gaussian Splatting (3DGS)的模型压缩,其核心是将3DGS视为高斯混合模型,并采用最优传输视角进行全局简化 [4][8][9] - 该方法在仅保留10%高斯球的情况下,能实现画质几乎不下降,且效果稳定优于主流压缩方案 [4][9] - 该技术框架具有可插拔性,可直接嵌入大多数3DGS变体中,具备极高的可扩展性 [9][28] 方法论创新 - 新视角:首次将3DGS建模为高斯混合分布,并将压缩问题表述为高斯混合简化问题,以在保持几何结构的同时降低冗余 [9][14] - 新框架:提供可扩展至大规模场景的压缩框架,使用KD-Tree进行空间均匀分块,并在每个子块中进行高斯混合简化,使大规模压缩可行 [9][17] - 两段式流程:先进行几何信息(位置/协方差)的约简,再进行外观特征(不透明度/颜色)的细化,解耦几何与外观使效果更稳定 [9][17] 性能表现 - 在Tanks & Temples数据集上,3DGS+GHAP在保留10%高斯球(157个)时,指标为SSIM 0.818,PSNR 23.312,LPIPS 0.242 [20][23] - 在MipNeRF-360数据集上,同等条件下指标为SSIM 0.764,PSNR 26.404,LPIPS 0.314 [20][23] - 在Deep Blending数据集上,同等条件下指标为SSIM 0.905,PSNR 29.647,LPIPS 0.264,其PSNR值甚至接近原始未压缩模型(29.816)[20][23] - 当GHAP应用于MiniSplatting基础模型并保留10%高斯球时,在Deep Blending数据集上实现了反超,PSNR达到30.042,高于原始模型的29.980 [20][23] 技术优势与特点 - 相较于传统“剪枝”方法容易破坏全局几何结构,GHAP方法通过全局最优的方式重建更小的混合模型,能显著保留概率分布的结构形态,即原3D物体的几何形态 [8][15][17] - 该方法是一个后处理方法,无需重新训练,具有极高的可扩展性和可插拔性 [9][28] - 实验结果显示,该方法在渲染质量上普遍优于其他基于剪枝的方法和端到端的方法 [9][20]
打破显存墙:谢赛宁团队提出CLM,单卡RTX 4090「撬动」1亿高斯点
机器之心· 2025-11-11 16:40
3D Gaussian Splatting (3DGS) 技术概述 - 3DGS是一种新视角合成方法,通过迭代训练由大量各向异性3D高斯体组成的场景表示,以捕捉场景的外观和几何形状 [2] - 与其他方法相比,3DGS具有更快的渲染速度,同时能保持相当的图像质量,因此在3D建模、数字孪生、影视制作、VR/AR和机器人视觉重建等领域展现出革命性应用潜力 [4][5] - 3DGS渲染的图像质量取决于场景表示的保真度,处理大面积或复杂场景需要更多高斯体,导致内存占用随场景大小、复杂性或输出图像分辨率增加而增长 [5] CLM系统的技术创新 - CLM系统由谢赛宁团队提出,旨在解决3DGS在扩展应用时GPU显存容量不足的障碍,允许使用单块消费级GPU(如RTX 4090)渲染大型场景 [6][8] - 系统的设计基于3DGS计算本质上是稀疏的洞察,即每次训练迭代只访问场景高斯体的一个小子集,因此只需将该子集加载到GPU内存,而将其余高斯体卸载到CPU内存 [8][11] - 评估表明,该实现可以在单个RTX 4090上渲染需要1.02亿个高斯体的大型场景,并达到顶尖水平的重建质量,与没有卸载的基线系统相比仅产生适度的性能开销 [8][9] 基于稀疏性的卸载策略 - 3DGS的计算过程具有高度稀疏性,在渲染时只有位于相机视锥体内的高斯点才对最终图像产生贡献,在大场景中单个视角访问的高斯点数量占比通常不到1% [12][14] - 团队利用这种稀疏性,通过视锥剔除逻辑提前识别每个视角所需的高斯点子集,并仅将这些必要的高斯点传输至GPU,从而显著降低内存占用与数据传输量 [12][15] - 在最大的数据集上,每个视角平均只访问了0.39%的高斯点,单个视角访问的高斯点数量上限为1.06% [23] 空间局部性优化 - 不同视角的稀疏模式虽不同但存在重叠,其交集的高斯点数与视角之间的空间位置和角度相似度密切相关 [16] - 团队利用这种空间局部性来优化CPU与GPU之间的数据传输,通过合理安排训练迭代顺序以最大化重叠访问并最小化总体通信量 [13][17] - 通过microbatch调度优化,提前计算每个微批次的稀疏模式并合理安排处理顺序,使得相邻批次之间的访问模式尽可能重叠,从而提高缓存命中率 [24] 系统设计与性能 - CLM的核心思路是通过将高斯参数和部分优化器计算卸载到CPU端来扩展有效的GPU显存容量,同时基于3DGS稀疏性和空间局部性观察结果最大限度减少通信开销 [20][25] - 系统采用流水线执行,使得通信与计算能够重叠进行,例如加载微批次i的视锥高斯时与微批次i-1的GPU反向计算重叠,传输微批次i的梯度时与微批次i+1的GPU前向计算重叠 [25][28] - CLM使得3DGS的可训练模型规模相比纯GPU训练基线提升了最高6.1倍,能够训练更大模型从而提升场景重建精度,并实现更低的通信与卸载开销 [27]
Feed-Forward 3D综述:三维视觉如何「一步到位」
机器之心· 2025-11-06 16:58
文章核心观点 - 一篇由12所顶尖学术机构联合撰写的综述论文,系统总结了2021至2025年间兴起的“前馈式3D”技术新范式,该范式旨在克服传统方法依赖“逐场景优化”导致的效率低下和泛化能力弱的问题,推动实时、通用的3D理解发展 [2] 五大代表性技术分支 - **条件式NeRF分支**:自PixelNeRF起,研究者探索让网络直接预测辐射场,发展出基于1D、2D和3D特征的方法 [7][12] - **点图模型分支**:由DUSt3R引领,直接在Transformer中预测像素对齐的3D点云,后续工作如MASt3R、Fast3R等提升了多视整合和长序列记忆能力 [9] - **3D高斯泼溅分支**:通过引入神经预测器实现直接输出高斯参数,包括基于图像的高斯图预测和基于体积的高斯表示两类方法 [10][13] - **网格/占据/SDF模型分支**:将传统几何建模思路与Transformer、Diffusion模型结合,如MeshFormer、InstantMesh等模型 [14][19] - **3D无关模型分支**:不依赖显式三维表示,直接学习从多视图到新视角的映射,包括基于回归的方法和基于生成扩散模型的方法 [14][19] 多样化任务与应用场景 - 应用方向涵盖无姿态重建与新视角合成、动态4D重建与视频扩散、SLAM与视觉定位、3D感知的图像与视频生成、数字人建模以及机器人操作与世界模型等多个前沿领域 [20] 基准数据集与评测指标 - 论文收录超过30个常用3D数据集,涵盖对象级、室内、室外、静态与动态场景,数据规模从7个场景到1,020万个对象不等,例如Objaverse-XL包含1,020万个合成对象,MVImgNet包含219,188个真实对象 [18][21] - 总结了包括PSNR/SSIM/LPIPS(图像质量)、Chamfer Distance(几何精度)、AUC/RTE/RRA(相机姿态)在内的标准指标体系 [18] 量化评测结果 - **相机姿态估计**:在Sintel数据集上,TT方法的绝对轨迹误差最低,为0.074;在RealEstate10K数据集上,VGGT和TT方法的相对姿态误差指标表现优异 [23] - **点图重建**:在7-Scenes数据集上,VGGT方法在点云精度和法向一致性上表现最佳,平均精度达0.087,平均法向一致性达0.787 [24] - **视频深度估计**:在尺度与偏移对齐条件下,TT方法在Sintel和KITTI数据集上的绝对相对误差分别低至0.210和0.037,δ<1.25的指标分别高达0.726和0.985 [25] - **单图新视角合成**:在Tanks-and-Temples数据集上,PE-Fields方法取得了最高的PSNR(22.12)和SSIM(0.732),以及最低的LPIPS(0.174) [26] 未来挑战与趋势 - 当前面临四大开放问题:多模态数据不足、重建精度待提升、自由视角渲染难度高以及长上下文推理存在显存瓶颈 [28][29] - 未来研究方向包括扩散Transformer与长程注意力结构、可扩展的4D记忆机制、多模态大规模数据集构建以及开发兼具生成和重建能力的前馈模型 [28]
Feed-Forward 3D综述:3D视觉进入“一步到位”时代
自动驾驶之心· 2025-11-01 00:03
文章核心观点 - 一篇由12所顶尖学术机构联合撰写的综述论文,系统总结了2021至2025年间快速前馈3D重建与视图合成领域的技术进展 [6] - 该领域正经历从传统的、依赖每个场景反复优化的范式,向基于AI的、具备泛化能力的快速前馈范式转变 [2] - 论文首次建立了完整的快速前馈3D方法谱系与时间线,并划分了五类主流架构 [6][8] 技术架构分类与演进 - **基于NeRF的模型**:从PixelNeRF开始,探索“条件式NeRF”,发展出1D、2D和3D特征方法三大技术分支 [8] - **点图模型**:由DUSt3R引领,直接在Transformer中预测像素对齐的3D点云,无需相机姿态输入 [10] - **3D高斯泼溅模型**:将场景表示为高斯点云,通过神经预测器直接输出高斯参数,分为基于图像和基于体积的表示方法 [11][13] - **网格/占用/SDF模型**:结合Transformer与Diffusion模型进行传统几何建模 [14] - **无3D表示模型**:直接学习从多视图到新视角的映射,不再依赖显式三维表示 [14] 多样化任务与应用场景 - 应用覆盖无姿态重建与视图合成、动态4D重建与视频扩散、SLAM与视觉定位、3D感知的图像与视频生成、数字人建模以及机器人操作与世界模型等多个前沿方向 [19] - 这些技术使得“从单张图像生成整个场景”成为可能,极大地拓展了3D技术的应用边界 [15] 基准数据集与评测体系 - 论文收录了超过30个常用3D数据集,涵盖对象级、室内、室外、静态与动态场景,数据规模庞大,例如Objaverse-XL包含10.2M个对象,MVImgNet包含219,188个对象 [20][21] - 总结了PSNR/SSIM/LPIPS(图像质量)、Chamfer Distance(几何精度)、AUC/RTE/RRA(相机姿态)等标准指标体系,为模型比较提供统一基线 [20] 量化性能对比 - 在相机姿态估计任务上,TT方法在Sintel数据集上的绝对轨迹误差低至0.074,在RealEstate10K数据集上的RRA@30指标达到99.99% [22] - 在点图重建任务上,VGGT方法在7-Scenes数据集上的精度均值为0.087,法向一致性中位数达到0.890 [23] - 在视频深度估计任务上,PE-Fields方法在Tanks-and-Temples数据集上的PSNR达到22.12,SSIM达到0.732,LPIPS低至0.174 [24] 未来挑战与发展趋势 - 当前面临四大开放问题:多模态数据不足、重建精度待提升、自由视角渲染难度高以及长上下文推理存在显存瓶颈 [25][26] - 未来趋势将聚焦于Diffusion Transformers与长程注意力结构、可扩展的4D记忆机制、多模态大规模数据集构建以及同时具备生成和重建能力的模型开发 [26]
基于3DGS和Diffusion的自动驾驶闭环仿真论文总结
自动驾驶之心· 2025-07-24 17:42
自动驾驶仿真技术发展 核心技术框架 - 自动驾驶仿真器由场景渲染、场景外推、3D资产重建、Relighting、智能体、天气系统等模块构成,通过闭环模拟实现高真实感[1] - 静态环境建模采用3D Gaussian Splatting与Diffusion Model技术,可还原城市细节至路边奶茶杯级别[1] 关键技术突破 静态环境构建 - OmniRe、Street Gaussians、ReconDreamer、StreetCrafter等方案实现高精度3D场景重建,支持逼真城市建模[1] 动态资产采集 - 通过环视采集系统提取汽车、行人、动物等动态元素,MADrive与3DRealCar技术实现复杂场景对象抠像[2] 视觉渲染优化 - R3D2与DiPIR技术完成动态资产重打光,模拟清晨/黄昏/暴雨等复杂光照条件,确保毛发反光等细节真实[2] 智能体行为模拟 - BehaviorGPT、SMART、DFTO-FW等模型赋予资产自主决策能力,支持变道不打灯、行人拍照等拟人行为[4][8] 环境系统增强 - Weather-Magician与RainyGS实现动态天气模拟,可生成雨雪雾霾等极端条件,测试传感器失效场景[4][9] 行业应用与测试场景 极端场景模拟 - 构建"外卖小哥+快递电瓶车+遛狗大妈+抛洒钉子"的复合挑战场景,验证自动驾驶系统鲁棒性[4] 技术验证方向 - 覆盖传感器失效(雨刮罢工、摄像头模糊)、感知干扰(激光雷达雾霾衰减)等30+技术栈测试需求[6][9] 行业生态发展 技术社区规模 - 形成4000人规模的专业社区,吸引300+企业与科研机构参与,覆盖感知、定位、规划控制全技术链[6] 技术培训体系 - 提供端到端自动驾驶、BEV感知、多传感器融合等30+方向课程,包含CUDA部署、轨迹预测等实战内容[6][8][10]
聊聊自动驾驶闭环仿真和3DGS!
自动驾驶之心· 2025-07-22 20:46
神经场景表征技术发展 - 神经辐射场(NeRF)方法如Block-NeRF在重建街道场景时无法处理动态车辆,这是自动驾驶环境仿真的关键要素[2] - 近期方法将动态驾驶场景表示为前景移动汽车和静态背景的组合神经表示,利用跟踪车辆姿态建立观察空间与规范空间的映射[2] - 现有方法存在高训练成本和低渲染速度的局限性,例如基于NeRF的方法训练和渲染成本较高[2] Street Gaussians技术创新 - 基于3DGS提出新颖的动态街道场景表示,将场景建模为基于点的背景和前景物体,每个点分配有3D高斯表示几何形状[3] - 背景点使用球面谐波模型表示外观,前景点使用动态球面谐波模型,实现高质量图像和语义图的实时渲染[3] - 在Waymo数据集上实现训练半小时内以135 FPS速度渲染1066×1600分辨率的高质量视图[2] - 采用显式基于点的表示方式,便于组合单独模型,支持场景编辑和前景对象分解[3] 背景模型设计 - 背景模型表示为世界坐标系中的一组点,每个点分配有3D高斯表示几何形状和颜色[8] - 高斯参数包括协方差矩阵(由缩放矩阵和旋转矩阵组成)和位置向量,避免优化过程中的无效值[8] - 每个高斯还分配不透明度值和球面谐波系数表示场景几何和外观,并包含3D语义信息概率[8] 物体模型设计 - 每个移动前景物体表示为可优化跟踪车辆姿态和点云,点分配有3D高斯、语义概率和动态外观模型[11] - 物体高斯属性与背景相似,但位置、旋转和外观模型不同,在物体局部坐标系中定义[11] - 引入4D球谐函数模型,用傅里叶变换系数替代SH系数,将时间信息编码到外观中而不增加存储成本[12] - 4D球谐函数有效解决了移动车辆外观建模问题,避免渲染结果中的明显伪影[16] 初始化方法 - 使用自车捕获的聚合LiDAR点云作为初始化,通过投影到图像平面获取颜色[17] - 对于物体模型,收集3D边界框内的聚合点并转换到局部坐标系,点数不足时随机采样8K点[17] - 背景模型对剩余点云进行体素下采样,过滤不可见点,结合SfM点云弥补LiDAR覆盖不足[17] 3DGS技术发展与应用 - 3DGS技术已衍生出多个子方向,包括3D世界表示、二维图像渲染、时序引入形成4D GS等[23] - 在自动驾驶领域应用广泛,涉及新视角泛化、场景编辑、仿真闭环等关键技术[23] - 工业界和学术界持续关注3DGS技术发展,但仍存在入门和进阶的难点[23] 3DGS全栈课程内容 - 课程涵盖视觉重建算法基础、3DGS技术细节、静态/动态场景重建、自动驾驶场景重建等模块[33][35][37][39][41][43] - 包括Mip-Splatting、Deformable GS、PGSR等前沿算法剖析,以及Street Gaussians项目实战[37][39][41][43] - 提供基于gsplat的驾驶场景重建算法设计大作业,以及升学和求职经验分享[45][47]
3D高斯泼溅算法大漏洞:数据投毒让GPU显存暴涨70GB,甚至服务器宕机
量子位· 2025-04-22 13:06
3D Gaussian Splatting技术漏洞 - 3D Gaussian Splatting(3DGS)作为新一代高效三维建模技术,其自适应特性存在安全隐患,研究者提出首个专门针对3DGS的攻击方法Poison-Splat,通过输入图像扰动可显著拖慢训练速度、暴涨显存占用甚至导致系统宕机[1] - 3DGS技术已被广泛应用于LumaAI、Spline、Polycam等应用,通过不固定数量的3D高斯点构建逼真三维世界,但其灵活性也带来了安全漏洞[2] - 攻击者只需改动图片细节就能让系统在训练阶段直接崩溃,这一漏洞由新加坡国立大学和昆仑万维的研究者在ICLR 2025论文中首次揭示[2] Poison-Splat攻击机制 - 攻击通过max-min双层优化问题建模,采用三大创新策略:代理模型作为内层近似器、利用图像非光滑性诱导高斯密度增长、约束扰动强度提升隐蔽性[13][15][16][17] - 攻击效果惊人:在无约束攻击下,GPU显存从不到4GB飙升到80GB,训练时间最长可达5倍增长,高斯数量增加至20倍+,渲染速度降至1/10[25] - 即使在隐蔽性约束下(像素扰动不超过16/255),部分场景仍能使显存消耗增高超过8倍,超过常见24GB显卡显存上限[27] 攻击的实际影响 - 攻击对黑盒模型同样有效,如Scaffold-GS,表明其具备跨平台传染性[28][29] - 现实中3D服务商如Polycam、Kiri支持用户自由上传图像,攻击者可伪装成普通用户提交"毒图",在高峰时段导致系统资源被霸占,引发服务瘫痪(DoS)[31][36] - 简单限制高斯点总量的防御方法会严重影响3D重建服务质量,目前尚无理想防御方案[39][40] 研究意义与行业影响 - 该研究首次系统性地揭示3DGS训练阶段的资源安全漏洞,是首个在三维视觉中将"数据投毒"扩展到"训练资源消耗"维度的研究[37] - 研究提出一套通用且具备可迁移性的攻击框架,推动了3D安全领域发展[37] - 研究结果预示3D重建厂商若无相应防护,系统很可能出现显存不足或训练无效,需引起行业重视[40][41]