Workflow
3D Gaussian Splatting
icon
搜索文档
中山&港科纯视觉方案:3DGS实现高精轨迹视频生成
自动驾驶之心· 2025-12-22 08:42
文章核心观点 - 中山大学与香港科技大学的研究团队提出了一种名为ReCamDriving的全新方法,用于从单条真实驾驶视频生成另一条相邻轨迹的视频,该方法不依赖LiDAR,完全基于视觉,并利用3D Gaussian Splatting(3DGS)实现精确的相机控制和结构引导,旨在解决自动驾驶领域多轨迹视频数据采集成本高、不一致的难题 [5][6][34] 技术方法创新 - 该方法的核心创新在于放弃使用稀疏、不完整的LiDAR数据,转而采用密集、完整、覆盖全场景的3DGS渲染结果作为相机控制和几何约束条件 [10][11][14] - 研究团队设计了一套两阶段训练策略:第一阶段仅使用相对相机位姿训练模型,建立基本的视角变换能力;第二阶段冻结核心参数,引入3DGS渲染特征进行精细引导,防止模型退化为单纯的“伪影修复器” [12][18][20] - 为了解决缺乏真实新轨迹视频作为监督数据的问题,团队提出了跨轨迹数据构造策略,利用3DGS渲染生成横向偏移的视频作为输入,并以原始真实视频作为监督,据此构建了包含超过110,000个平行轨迹视频对的ParaDrive数据集 [22][26][27] 性能表现与优势 - 在Waymo和nuScenes数据集上的实验表明,ReCamDriving在相机控制精度上显著优于对比方法,例如在横向偏移±1米时,其旋转误差(RErr.)为1.32度,平移误差(TErr.)为2.37厘米,优于其他方法 [29] - 在视觉质量和视角一致性方面,该方法也表现优异,在横向偏移±1米时,其FID分数为13.76,FVD分数为13.27,CLIP-V分数为97.96,均显著优于对比的修复型方法(如Difi x3D+)和依赖LiDAR的方法(如StreetCrafter) [29][30] - 随着横向偏移增大,该方法在几何一致性上表现更稳定,下降更缓,例如在偏移±4米时,其FID为32.36,而对比方法StreetCrafter的FID为68.73,Difi x3D+为78.08 [29] - 在nuScenes数据集上的平均性能也验证了其泛化能力,其FID为25.68,FVD为18.98,CLIP-V为96.14,均优于对比方法 [31] 行业应用与意义 - 该技术为自动驾驶领域提供了一种低成本、高效率的数据扩充方案,能够生成高质量、多视角的驾驶视频,这对于3D重建的完整性、世界模型和规划系统的泛化能力至关重要 [4][36] - 该方法代表了一种趋势,即新轨迹视频生成应从“事后画面修复”转向对“相机与几何关系”的本质建模,为自动驾驶仿真数据生成和模型训练提供了新的技术思路 [34][36]
打破恶性循环!CoherentGS:稀疏模糊图像也能高清重建
自动驾驶之心· 2025-12-20 10:16
北京大学CoherentGS技术突破 - 北京大学团队推出的CoherentGS技术,仅需3至9张稀疏且模糊的照片,即可重建出高清、连贯的3D场景,有效解决了传统3D高斯splatting对密集、清晰输入图像的依赖问题[5][7] 核心框架与关键技术 - CoherentGS采用“双先验引导”策略,将去模糊与几何补全协同融入3D高斯优化全流程,确保重建结果既清晰又连贯[7][10] - 其核心技术包括四大关键:去模糊先验、扩散先验、一致性引导相机探索以及联合优化[11][12] 去模糊先验技术细节 - 通过物理模糊建模,将模糊图像建模为相机曝光时间内的多帧清晰图像叠加,并优化相机位姿以模拟真实模糊形成过程[15] - 采用感知蒸馏去模糊方法,利用预训练去模糊模型生成清晰伪标签,在特征层面引导3D高斯渲染,以恢复高频细节并避免几何失真[15] 扩散先验技术细节 - 利用扩散模型对3D高斯渲染的图像进行单步去噪引导,通过特征蒸馏损失补全未观测区域的几何结构,并确保补全结构与真实场景一致,避免无中生有[18] - 对比显示,BAD-Gaussians的高斯分布呈碎片化聚类,而CoherentGS的高斯分布全局连贯[17] 智能相机探索与联合优化 - 采用一致性引导的相机探索策略,通过场景自适应归一化与带通选择,智能筛选“可恢复且有价值”的新视角,避免盲目增加视角导致的优化低效或失真[19][21][25] - 在联合优化中引入深度正则化损失,对渲染深度图施加平滑约束,并结合复合损失函数,全面优化以避免稀疏区域的碎片化或漂浮伪影[22][24][26] 性能验证与效果 - 在Deblur-NeRF和DL3DV-BLUR数据集上的定量测试表明,在3至9张稀疏模糊输入下,CoherentGS的PSNR比BAD-Gaussians最高提升2.78 dB,LPIPS降低40%以上[26] - 定性效果显示,CoherentGS能恢复清晰的纹理细节和边缘,在复杂户外场景中也能保持视图一致性,无明显伪影[26][27][29] - 频谱分析证实,CoherentGS恢复的细节真实有效,其频率谱与真实场景高度吻合,保留了自然的高频细节[30][32] 行业影响与未来展望 - CoherentGS标志着3D重建进入“少图模糊也能打”的时代,大幅降低了高质量3D重建对输入素材的门槛[33] - 该技术未来可扩展至散焦模糊、曝光异常等更多真实拍摄场景,应用前景广阔[33]
清华团队开源DISCOVERSE框架:用3D高斯渲染打通机器人仿真到现实的“最后一公里”!
机器人大讲堂· 2025-11-10 12:07
端到端机器人学习当前面临的挑战 - 当前技术受制于仿真环境还原真实场景能力不足,导致仿真到现实迁移时性能显著下降 [1] - 场景资产获取和系统配置投入高昂,技术难以大规模铺开应用 [1] - 训练数据收集耗时久,拖慢整个学习进程,其中Sim2Real迁移性能下降是最核心障碍 [1] - 现有仿真环境与真实世界在物体外观质感、光线照射效果、空间几何结构等关键维度存在本质差异 [1] 现有仿真框架的局限性 - 目前尚无一套框架能同时满足视觉高度还原真实、物理交互精准无误、支持高效并行扩展三个要求 [3] - 部分框架视觉精美但物理层面与现实不一致,部分框架动力学模拟准但外观逼真度不足 [3] - 传统仿真器视觉保真度差,使用手工纹理贴图或简化光照效果,缺失真实世界复杂细节 [6] - 几何重建技术存在缺陷,遇到非朗伯表面或精细结构时容易出现表面塌陷,模型模糊或缺块 [6] - 兼容性和效率不可兼得,高性能仿真器配置复杂且不支持真实场景扫描资产,支持真实资产的方案渲染速度慢 [7] DISCOVERSE仿真框架的技术创新 - 首次将3D Gaussian Splatting渲染器、MuJoCo物理引擎和控制接口整合到统一架构,形成可扩展、模块化开源Real2Sim2Real框架 [5] - 设计分层级Real2Sim流水线,分别处理场景背景和交互物体,采用激光扫描+3D高斯splatting组合拳提升几何精度 [12][14] - 使用DiffusionLight模型生成HDR环境图,还原阳光灯光强度并模拟不同时间光影变化 [14] - 针对不同特性物体采用定制化方案,表面均匀反光物体用激光扫描,金属等非朗伯表面用3D生成模型CLAY [16] - 开发Mesh-Gaussian转换技术,完美打通网格模型和3D高斯格式壁垒,保留物理交互精度并发挥渲染优势 [17] DISCOVERSE的性能优势 - 渲染引擎采用瓦片式光栅化技术并做CUDA优化,实现高速并行渲染 [18] - 在Intel Xeon CPU和NVIDIA 6000 Ada GPU台式机上,5摄像头同时输出RGB-D帧可达650 FPS,比主流方案Issac Lab快3倍 [19] - 在笔记本电脑配置下也能跑到240 FPS,满足大规模并行训练需求 [20] - 集成MuJoCo物理引擎,精准模拟物体接触、摩擦、软约束等物理效应 [20] - 原生支持ROS2机器人操作系统,提供全套API,仿真控制逻辑可直接用于真实机器人 [20] DISCOVERSE的兼容性特点 - 支持3D高斯ply文件、网格模型obj/stl文件、物理仿真MJCF xml文件等主流格式 [21] - 支持从单机械臂到双臂人形移动操作器、轮式移动机器人和无人机等多种机器人模型 [21] - 传感器支持全面,包括RGB相机、深度相机、LiDAR激光雷达,力反馈传感器、IMU、触觉传感器等 [21] - 支持ACT、Diffusion Policy等主流模仿学习算法,内置数据增强工具 [22] DISCOVERSE的实测性能表现 - 在合笔记本电脑、推鼠标到垫上、捡奇异果三个真实操作任务测试中,零样本迁移成功率碾压同类方案 [22][24][26] - 使用ACT算法时平均成功率55%,比第二名SplatSim高11个百分点;加入图像增强后平均成功率飙升至86.5% [24][27] - 使用Diffusion Policy时平均成功率56%,比SplatSim高11个百分点;增强后达到86% [25][26] - 在捡奇异果高难度任务中,无增强时成功率48%是SplatSim1.8倍,增强后达到76%接近真实世界演示水平 [27] - 数据收集效率提升100倍,100条演示数据在真实世界需146分钟,在DISCOVERSE中仅需1.5分钟 [29] 行业应用与生态 - DISCOVERSE是通用机器人仿真框架,支持机器人、无人机、无人驾驶传感器等异构机器人本体验证测试 [30] - 框架已在官网放出代码和演示视频,提供完整Python API,面向个人开发者和企业开放 [30] - 文章列举了工业机器人、服务与特种机器人、医疗机器人、人形机器人、具身智能、核心零部件等领域的多家相关企业 [33][34][35][36][37][38]
ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
具身智能之心· 2025-08-20 08:03
研究背景与动机 - 3DGS技术在动态场景建模中存在精度不足问题 常导致渲染图像出现伪影 [1] - 高斯致密化过程具有双重作用机制:既增强场景细节表达 又促使模型过早拟合动态区域导致伪影和场景失真 [4] - 传统致密化策略存在依赖性风险 细节提升可能以牺牲静态区域重建质量为代价 [4] 核心技术方案 - 首创延迟高斯生长策略:在允许高斯分裂/克隆前优先优化静态场景结构 减少优化初期对动态物体的过拟合 [1][6] - 设计尺度级联掩码引导方法:先利用低分辨率特征相似度监督进行可靠的初始动态掩码估计 再逐步过渡到高分辨率监督实现精准掩码预测 [1][14] - 采用含两层线性层的MLP作为掩码估计网络 以DINOv2特征为输入 因其在语义一致性和抗噪性方面表现优异 [9][10] - 掩码学习总损失结合图像残差损失和特征余弦相似度损失 增强语义级动态区域识别能力 [10][13] 实验效果 - 在NeRF On-the-go和RobustNeRF数据集上 相比3DGS、SpotLessSplats、WildGaussians等基线方法 PSNR、SSIM、LPIPS等指标全面领先 [16][20] - 能处理含多样瞬态物体的复杂场景并保留细节 有效减少瞬态物体导致的渲染伪影 [19][20] 技术价值 - 通过调节致密化过程引入时机 有效平衡静态结构表达与动态干扰抑制 [6] - 推动在复杂场景中实现鲁棒、细节丰富的3D场景重建 [6][20]