Workflow
3D Gaussian Splatting
icon
搜索文档
清华团队开源DISCOVERSE框架:用3D高斯渲染打通机器人仿真到现实的“最后一公里”!
机器人大讲堂· 2025-11-10 12:07
端到端机器人学习当前面临的挑战 - 当前技术受制于仿真环境还原真实场景能力不足,导致仿真到现实迁移时性能显著下降 [1] - 场景资产获取和系统配置投入高昂,技术难以大规模铺开应用 [1] - 训练数据收集耗时久,拖慢整个学习进程,其中Sim2Real迁移性能下降是最核心障碍 [1] - 现有仿真环境与真实世界在物体外观质感、光线照射效果、空间几何结构等关键维度存在本质差异 [1] 现有仿真框架的局限性 - 目前尚无一套框架能同时满足视觉高度还原真实、物理交互精准无误、支持高效并行扩展三个要求 [3] - 部分框架视觉精美但物理层面与现实不一致,部分框架动力学模拟准但外观逼真度不足 [3] - 传统仿真器视觉保真度差,使用手工纹理贴图或简化光照效果,缺失真实世界复杂细节 [6] - 几何重建技术存在缺陷,遇到非朗伯表面或精细结构时容易出现表面塌陷,模型模糊或缺块 [6] - 兼容性和效率不可兼得,高性能仿真器配置复杂且不支持真实场景扫描资产,支持真实资产的方案渲染速度慢 [7] DISCOVERSE仿真框架的技术创新 - 首次将3D Gaussian Splatting渲染器、MuJoCo物理引擎和控制接口整合到统一架构,形成可扩展、模块化开源Real2Sim2Real框架 [5] - 设计分层级Real2Sim流水线,分别处理场景背景和交互物体,采用激光扫描+3D高斯splatting组合拳提升几何精度 [12][14] - 使用DiffusionLight模型生成HDR环境图,还原阳光灯光强度并模拟不同时间光影变化 [14] - 针对不同特性物体采用定制化方案,表面均匀反光物体用激光扫描,金属等非朗伯表面用3D生成模型CLAY [16] - 开发Mesh-Gaussian转换技术,完美打通网格模型和3D高斯格式壁垒,保留物理交互精度并发挥渲染优势 [17] DISCOVERSE的性能优势 - 渲染引擎采用瓦片式光栅化技术并做CUDA优化,实现高速并行渲染 [18] - 在Intel Xeon CPU和NVIDIA 6000 Ada GPU台式机上,5摄像头同时输出RGB-D帧可达650 FPS,比主流方案Issac Lab快3倍 [19] - 在笔记本电脑配置下也能跑到240 FPS,满足大规模并行训练需求 [20] - 集成MuJoCo物理引擎,精准模拟物体接触、摩擦、软约束等物理效应 [20] - 原生支持ROS2机器人操作系统,提供全套API,仿真控制逻辑可直接用于真实机器人 [20] DISCOVERSE的兼容性特点 - 支持3D高斯ply文件、网格模型obj/stl文件、物理仿真MJCF xml文件等主流格式 [21] - 支持从单机械臂到双臂人形移动操作器、轮式移动机器人和无人机等多种机器人模型 [21] - 传感器支持全面,包括RGB相机、深度相机、LiDAR激光雷达,力反馈传感器、IMU、触觉传感器等 [21] - 支持ACT、Diffusion Policy等主流模仿学习算法,内置数据增强工具 [22] DISCOVERSE的实测性能表现 - 在合笔记本电脑、推鼠标到垫上、捡奇异果三个真实操作任务测试中,零样本迁移成功率碾压同类方案 [22][24][26] - 使用ACT算法时平均成功率55%,比第二名SplatSim高11个百分点;加入图像增强后平均成功率飙升至86.5% [24][27] - 使用Diffusion Policy时平均成功率56%,比SplatSim高11个百分点;增强后达到86% [25][26] - 在捡奇异果高难度任务中,无增强时成功率48%是SplatSim1.8倍,增强后达到76%接近真实世界演示水平 [27] - 数据收集效率提升100倍,100条演示数据在真实世界需146分钟,在DISCOVERSE中仅需1.5分钟 [29] 行业应用与生态 - DISCOVERSE是通用机器人仿真框架,支持机器人、无人机、无人驾驶传感器等异构机器人本体验证测试 [30] - 框架已在官网放出代码和演示视频,提供完整Python API,面向个人开发者和企业开放 [30] - 文章列举了工业机器人、服务与特种机器人、医疗机器人、人形机器人、具身智能、核心零部件等领域的多家相关企业 [33][34][35][36][37][38]
ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
具身智能之心· 2025-08-20 08:03
研究背景与动机 - 3DGS技术在动态场景建模中存在精度不足问题 常导致渲染图像出现伪影 [1] - 高斯致密化过程具有双重作用机制:既增强场景细节表达 又促使模型过早拟合动态区域导致伪影和场景失真 [4] - 传统致密化策略存在依赖性风险 细节提升可能以牺牲静态区域重建质量为代价 [4] 核心技术方案 - 首创延迟高斯生长策略:在允许高斯分裂/克隆前优先优化静态场景结构 减少优化初期对动态物体的过拟合 [1][6] - 设计尺度级联掩码引导方法:先利用低分辨率特征相似度监督进行可靠的初始动态掩码估计 再逐步过渡到高分辨率监督实现精准掩码预测 [1][14] - 采用含两层线性层的MLP作为掩码估计网络 以DINOv2特征为输入 因其在语义一致性和抗噪性方面表现优异 [9][10] - 掩码学习总损失结合图像残差损失和特征余弦相似度损失 增强语义级动态区域识别能力 [10][13] 实验效果 - 在NeRF On-the-go和RobustNeRF数据集上 相比3DGS、SpotLessSplats、WildGaussians等基线方法 PSNR、SSIM、LPIPS等指标全面领先 [16][20] - 能处理含多样瞬态物体的复杂场景并保留细节 有效减少瞬态物体导致的渲染伪影 [19][20] 技术价值 - 通过调节致密化过程引入时机 有效平衡静态结构表达与动态干扰抑制 [6] - 推动在复杂场景中实现鲁棒、细节丰富的3D场景重建 [6][20]