Workflow
神经渲染
icon
搜索文档
单卡训练1亿高斯点,重建25平方公里城市:3DGS内存墙被CPU「外挂」打破了
具身智能之心· 2025-12-24 08:25
文章核心观点 - 纽约大学研究团队提出名为CLM的系统,通过将3D高斯泼溅训练中占用显存最多的参数转移到CPU内存,使单张消费级显卡也能训练上亿规模的高斯点模型,显著降低了城市级3D重建的硬件门槛[3] 3DGS的规模应用瓶颈 - 3D高斯泼溅在应用于城市街区等复杂场景时,GPU显存成为最直接且难解决的瓶颈[5] - 一个高精度3DGS模型通常包含数千万乃至上亿个高斯点,每个点包含数十个参数,训练还需保存梯度和优化器状态[5] - 即便是24GB显存的RTX 4090,也只能容纳约一两千万个高斯点的完整训练状态,远不足以覆盖城市级场景[5] - 此前扩展规模的方法不理想:多GPU并行训练成本高昂,或通过压缩等方式减少高斯数量但牺牲重建质量[6] CLM系统的设计原理 - 研究发现,在3DGS训练的每一次视角渲染中,真正参与计算的高斯点只占整个场景的极小一部分,单帧图像通常只会访问不到1%的高斯点[7] - 设计思路是不再将所有高斯参数常驻显存,而是在需要时按视角动态加载[8] - 系统通过三项关键机制实现CPU-GPU协同[9] - **机制一:属性分割**:将每个高斯点的59个参数分为两类,用于视锥剔除的“关键属性”(位置、旋转、缩放,共10个浮点数)永久保存在GPU显存,仅占单个高斯内存占用的不到20%;其余约80%的“非关键属性”卸载到CPU内存,需要时才加载[10][11] - **机制二:预渲染视锥剔除与选择性加载**:在渲染前显式计算当前视角中可见的高斯点索引,仅从CPU内存加载这些可见点的完整参数,减少了GPU对不可见高斯的无效计算和内存占用[12] - **机制三:优化数据传输**:通过微批次流水线将参数加载与GPU计算重叠以隐藏通信延迟;利用缓存机制避免反复加载相同数据;通过智能调度(建模为旅行商问题)寻找高斯点重用率最高的视角排列以最大化缓存命中[15][16][17] CLM系统的性能与效果 - **规模突破**:在“MatrixCity BigCity”数据集上,传统GPU-only方法在RTX 4090上最多训练1530万个高斯点,而CLM成功训练了1.022亿个高斯点,模型规模扩大了6.7倍,比仅使用卸载功能时大2.2倍[18] - **速度可控**:凭借重叠计算设计,CLM在RTX 4090上的训练吞吐量能达到增强型基线吞吐量的55%至90%;在RTX 2080 Ti上,吞吐量甚至能达到基线的86%至97%[23] - **通用性强**:该方案与具体后端渲染引擎无关,并可扩展至其他splatting算法[21] 产业意义与应用前景 - CLM是一项直接面向真实部署瓶颈的系统工程研究,核心贡献在于首次系统性地将CPU内存和计算资源纳入了3DGS训练的资源分配体系[22] - 为学术界和工业界进行超大规模场景重建提供了一种不依赖多GPU集群的高性价比可行路径[22] - 随着数字孪生、大规模地图重建等应用需求增长,能在现实硬件条件下稳定扩展规模对相关工作开展非常有利[22] - 展示了通过软硬件协同、重新组织既有计算资源,在不增加专用硬件投入的情况下推进3DGS实用化的可能方向[22]
单卡训练1亿高斯点,重建25平方公里城市:3DGS内存墙被CPU「外挂」打破了
36氪· 2025-12-23 15:27
文章核心观点 - 纽约大学研究团队提出名为CLM的系统,通过将3D高斯泼溅训练中占用显存最多的参数转移到CPU内存中,使单张消费级显卡也能训练上亿规模的高斯点模型,显著降低了城市级3D重建的硬件门槛 [1] 3D高斯泼溅技术瓶颈 - 3D高斯泼溅在应用于城市街区等复杂场景时,GPU显存成为最直接且难解决的瓶颈 [2] - 一个高精度3DGS模型通常包含数千万乃至上亿个高斯点,每个点包含数十个参数,训练时还需保存梯度和优化器状态 [2] - 即便是拥有24GB显存的RTX 4090显卡,也只能容纳约一两千万个高斯点的完整训练状态,远不足以覆盖城市级场景 [2] - 此前扩展规模的方法要么成本高昂(多GPU并行),要么以牺牲重建质量为代价(压缩、裁剪等) [2] CLM系统的设计原理 - 设计出发点基于对训练过程的观察:在每次视角渲染中,真正参与计算的高斯点只占整个场景的极小一部分,单帧图像通常只会访问不到1%的高斯点 [3] - 核心设计思路是不再将所有高斯参数常驻显存,而是在需要时按视角动态加载 [3] - 该系统是一套围绕CPU-GPU协同设计的系统方案,并非简单地将数据从GPU搬到CPU [4] CLM系统的三项关键机制 - **属性分割**:将每个高斯点的59个可学习参数分为两类,用于视锥剔除和可见性判断的“关键属性”(位置、旋转、缩放,共10个浮点数)永久保存在GPU显存中,这部分数据仅占单个高斯内存占用的不到20% [5] - **属性分割**:其余约80%的“非关键属性”(如球谐系数、不透明度及其优化器状态)则被卸载到容量更大的CPU内存中,仅在需要时才被加载到GPU [6] - **预渲染视锥剔除与选择性加载**:系统首先利用GPU中常驻的关键属性完成快速视锥裁剪,然后只从CPU内存中加载这些可见高斯点的完整参数,再交由GPU执行渲染与反向传播,这减少了GPU对不可见高斯的无效计算和内存占用 [7] - **预渲染视锥剔除与选择性加载**:这一“预渲染视锥剔除”技术本身也是一个独立优化,可减少GPU计算量和内存占用,同样可以应用于无卸载的GPU-only训练 [8] - **优化CPU-GPU通信**:通过微批次流水线设计,将一个训练批次拆分为多个微批次,通过双缓冲和异步执行重叠通信与计算,有效隐藏通信延迟 [10] - **优化CPU-GPU通信**:利用缓存机制,根据连续视角间的空间局部性缓存重复使用的高斯点,避免反复从CPU加载相同数据 [11] - **优化CPU-GPU通信**:通过智能调度,将渲染顺序建模为“旅行商问题”,寻找高斯点重用率最高的视角排列,从而最大化缓存命中、最小化数据搬运 [11] - 通过上述设计,使CPU成为可以与GPU高效协同的计算资源,而不仅仅是辅助性的“慢速仓库” [12] CLM系统的实测效果 - **规模突破**:在“MatrixCity BigCity”这个面积达25.3平方公里的城市级航拍数据集上,传统GPU-only方法在RTX 4090上最多只能训练1530万个高斯点,而CLM成功训练了1.022亿个高斯点,模型规模扩大了6.7倍,比仅使用卸载功能时大2.2倍 [13][14] - **速度可控**:凭借精心设计的重叠计算,CLM在RTX 4090上的训练吞吐量能达到增强型基线吞吐量的55%至90%,在RTX 2080 Ti上甚至能达到基线的86%至97% [16] - **质量提升**:1.022亿高斯点模型的渲染PSNR达到25.15dB,显著优于1530万点模型的23.93dB [18] - **通用性强**:该方案与具体后端渲染引擎无关,并可扩展至其他splatting算法微调方式 [19] 产业意义与应用前景 - CLM是一项直接面向真实部署瓶颈的系统工程研究,其核心贡献在于首次系统性地将CPU内存和计算资源纳入了3DGS训练的资源分配体系中 [20] - 该研究为学术界和工业界进行超大规模场景重建提供了一种不依赖多GPU集群的高性价比可行路径 [20] - 随着数字孪生、大规模地图重建等应用需求增长,能在现实硬件条件下稳定扩展规模对相关工作的开展非常有利 [20] - CLM展示了通过软硬件协同、重新组织既有计算资源,在不增加专用硬件投入的情况下推进3DGS实用化的可能方向 [20]
单卡训练1亿高斯点,重建25平方公里城市:3DGS内存墙被CPU「外挂」打破了
量子位· 2025-12-23 12:16
文章核心观点 - 纽约大学研究团队提出的CLM系统,通过将3D高斯泼溅训练中占用显存最多的参数转移到CPU内存,使单张消费级显卡也能训练上亿规模的高斯点模型,显著降低了城市级3D重建的硬件门槛 [1] 3DGS的规模应用瓶颈 - 3D高斯泼溅技术面临GPU显存瓶颈,高精度模型包含数千万至上亿个高斯点,单张RTX 4090仅能容纳约一两千万个高斯点的完整训练状态,不足以覆盖城市级场景 [2] - 此前扩展规模的方法成本高昂或会牺牲重建质量 [2] CLM系统的设计原理 - 基于训练过程中单帧图像通常只会访问不到1%的高斯点这一观察,CLM不再将所有高斯参数常驻显存,而是在需要时按视角动态加载 [3][4] - CLM是一套围绕CPU-GPU协同设计的系统方案 [5] CLM系统的三项关键机制 - **属性分割**:将每个高斯点的59个参数分为关键与非关键属性,仅将用于视锥剔除的位置、旋转和缩放等关键属性(占内存不到20%)永久保存在GPU显存,其余约80%的非关键属性卸载到CPU内存 [6][7] - **预渲染视锥剔除与选择性加载**:在渲染前利用GPU中的关键属性快速完成视锥裁剪,仅从CPU内存加载可见高斯点的完整参数,减少了GPU的无效计算和内存占用 [8][9][10] - **优化数据传输以降低延迟**:通过微批次流水线将数据加载与GPU计算重叠、缓存机制利用空间局部性、以及将渲染顺序建模为旅行商问题以最大化缓存命中,来缓解CPU参与训练可能带来的速度拖慢问题 [12][13][14][15] CLM系统的实测效果 - **规模突破**:在MatrixCity BigCity数据集上,传统GPU-only方法在RTX 4090上最多训练1530万个高斯点,而CLM成功训练了1.022亿个高斯点,模型规模扩大了6.7倍 [16] - **质量提升**:1.022亿高斯点模型的渲染PSNR达到25.15dB,显著优于1530万点模型的23.93dB [18] - **速度可控**:在RTX 4090上,CLM的训练吞吐量能达到增强型基线吞吐量的55%至90% [19] - **通用性强**:该方案与具体后端渲染引擎无关,并可扩展至其他splatting算法 [20] 产业意义与影响 - CLM首次系统性地将CPU内存和计算资源纳入了3DGS训练的资源分配体系,为超大规模场景重建提供了一种高性价比的可行路径 [21] - 该研究通过软硬件协同重新组织既有计算资源,展示了在不增加专用硬件投入的情况下推进3DGS实用化的可能方向,对数字孪生、大规模地图重建等应用需求增长非常有利 [21]
仿真专场!一文尽览神经渲染(NERF/3DGS)技术在具身仿真框架Isaac Sim中的实现
具身智能之心· 2025-09-28 09:05
神经渲染技术在仿真领域的应用 - 神经渲染技术(NERF/3DGS)通过神经网络表达空间,在新视角合成方面表现优越,直击辅助驾驶和具身智能仿真中传感器仿真的痛点,可解决传统计算机图形学渲染图像缺乏真实性的问题,广泛应用于算法闭环测试和训练 [3] - 现有研究围绕NERF和3DGS技术开发面向闭环测试的仿真框架,但完全新开发仿真框架工作量巨大,因此另一种思路是将训练好的NERF/3DGS模型嵌入现有仿真软件框架,以利用现有3D数字资产和算法接口工具链 [3] 技术集成与工具支持 - LumaAI的3DGS插件可将高斯点云ply插入基于Unreal的CARLA游戏引擎,而NVIDIA的Isaac Sim仿真软件也已支持神经渲染技术,允许插入3DGS模型 [4] - NVIDIA开源项目提出三维高斯渲染方法,可输出适用于Isaac Sim的usdz模型,3DGRUT工具支持将其他3DGS方法生成的高斯点云ply转化为usdz模型 [4] - 3DGRUT生成的usdz模型文件包含default.usda、gauss.usda等描述文件和nurec格式模型文件,可直接解压使用 [4] Isaac Sim中的操作流程 - Isaac Sim的神经渲染功能NuRec需5.0.0以上版本(Omniverse Kit 107.3以上),安装后可通过Content栏导航到usdz模型解压文件夹,将gauss.usda拖动或插入Stage,即可显示三维高斯模型 [5] - 导入的3DGRUT模型仅具备视觉特征,需通过2DGS等方法提取场景mesh(ply格式),并调整mesh的scale和位姿以匹配usdz渲染结果 [6][7] - 需将usdz模型与mesh绑定,在gauss的Property中选择Raw USD Properties,找到proxy并添加Target,选择mesh对象,最后勾选omni:nurec:useProxyTransform特性以实现对齐 [7] 物理属性与交互功能 - 需为mesh添加物理属性,右键选择mesh,在Add中选择Physics->Collider,以增加碰撞属性,避免物体穿透问题 [8] - 在mesh的Property中勾选Matte Object,配合DomeLight光照实现光影交互效果,同时可添加OmniPBR材料并将Reflectivity中的Specular降至最低,减少不必要的反光 [8] - 添加Rigid Body with Colliders Preset属性后,可进一步设置质量等物理属性,使模型与仿真环境中的其他物体(如球体、地面)产生碰撞交互 [14] 动态物体与场景构建 - 通过3DGS方法训练场景(如mipnerf360的kitchen),使用在线工具编辑ply文件提取特定物体(如乐高推土机),再经3DGRUT转化为usdz模型,可实现动态物体导入 [11][13] - 将动态物体(如推土机)放入其他神经渲染场景(如garden或room),可实现模型间及模型与原生物体的动态交互,显存占用较低,在3090显卡上fps表现良好 [15][17] 未解决的问题与挑战 - 神经渲染模型间的光影交互关系尚未完全解决,例如推土机未在神经渲染背景中投下阴影 [18] - 仿真环境测试具体算法的效果尚未探究,例如在room环境中让VLA算法执行"捡起地毯上的乐高推土机"指令的可行性 [19] - 需解决如何快速提供rgb图像外的真值信息(如图像分割、对象标注标签),以及如何获取动态物体的物理属性真值(如硬度、摩擦系数、质量) [19] - 需进一步提升计算效率,以支持更大规模神经渲染场景和更多对象的实时仿真 [19]
自动驾驶之心项目与论文辅导来了~
自动驾驶之心· 2025-08-07 20:00
自动驾驶之心项目与论文辅导 - 项目正式推出自动驾驶领域论文辅导服务 旨在解决学生在研究过程中遇到的环境配置 创新点实现 模型调试等疑难问题 [1] - 过往辅导成果显著 部分学员成功在CVPR ICRA等顶级会议发表论文 [1] - 2024年计划扩大辅导规模 目标助力更多学员冲击顶会 [1] 主要辅导方向 方向1:多模态与计算机视觉 - 覆盖端到端自动驾驶 BEV感知 大模型等前沿技术领域 [2][3] - 辅导老师为华为天才少年计划入选者 在CVPR/ICCV/ECCV/NIPS等顶会发表论文30+篇 总引用量超6000次 [3] - 学术指导经验丰富 曾指导博士生在CCF-A类顶会顶刊以一作/共一身份发表7篇论文 [3] 方向2:3D视觉技术 - 聚焦图像/点云数据的3D目标检测 语义分割 占据预测等多任务研究 [4][5] - 辅导老师来自国内TOP2高校 在ECCV CVPR等会议有多次论文发表记录 [5] 方向3:自动驾驶感知架构 - 研究领域包含OCC 世界模型 BEV等自动驾驶核心感知方案 [6] - 辅导团队参与多个主流感知方案开发 成员均来自国内TOP2高校 在CVPR ECCV等会议有论文发表 [6] 方向4:神经渲染与重建 - 涉及NeRF 3D Gaussian Splatting等三维重建技术 [7] - 辅导老师以第一作者发表4篇CCF-A类论文(含2篇CVPR和2篇IEEE Trans) [7] - 另有导师在CVPR ICCV ICML TPAMI等期刊会议发表多篇论文 学术背景覆盖国内外顶尖高校(QS200/国内TOP100) [7] 合作方式 - 提供个性化论文辅导服务 具体细节需通过指定微信号(wenyirumo)咨询 [7] - 咨询时需备注"论文辅导"以获取定向服务 [8]
4万多名作者挤破头,CVPR 2025官方揭秘三大爆款主题, 你卷对方向了吗?
机器之心· 2025-05-28 11:02
计算机视觉领域热门方向 - CVPR 2025基于全球4万多名作者的13008份投稿统计出三大热门方向 投稿数量同比增长13% 最终接收2878篇论文 接收率22.1% [3] - 研究群体呈现指数级增长趋势 AI领域重要性提升带动相关学位攻读人数增加 [3] 多视角与传感器3D技术 - 该方向投稿量激增 研究重点从单幅图像2D渲染转向复杂3D评估 2020年NeRF技术突破推动领域发展 [4][5] - 高斯泼溅(Gaussian splatting)技术进一步促进计算机视觉与图形学融合 神经渲染研究显著提升3D相关论文数量 [5] 图像与视频合成 - 成为CVPR 2025最大论文类别之一 多模态商业聊天机器人已实现图像/视频生成能力 正朝交互式世界生成演进 [6] - 会议展示的合成方法为生成完整虚拟环境奠定技术基础 [6] 多模态学习 - 视觉、语言和推理合并为投稿量最大类别之一 可能预示新研究趋势 [7][8] - CVPR坚持学术公平原则 每篇论文评审标准独立于作者机构背景 维护领域生态平衡 [8] 行业动态 - CVPR 2025会议即将召开 投稿竞争加剧反映AI研究热度持续攀升 [8] - 机器之心将同步举办论文分享会 提供学术交流平台 [8]