Workflow
3DGS技术
icon
搜索文档
首个基于3DGS的VLN具身学习数据集,群核科技联合浙大开源SAGE-3D
具身智能之心· 2025-12-25 12:01
文章核心观点 - 群核科技联合浙江大学开源的SAGE-3D数据集,将3D高斯泼溅技术从一个高保真渲染工具,升级为兼具精细语义理解和物理碰撞检测的可执行导航环境,解决了3DGS在具身智能领域“只能看,不能碰”的核心痛点,为视觉语言导航任务的训练与评估提供了新的范式[3][7][14][30] 3DGS技术在具身智能领域的应用与局限 - 3DGS因其超逼真的实时渲染和高效数据获取能力,被视为缩小“仿真到现实”差距的关键技术,在具身智能领域备受青睐[2][9] - 3DGS的两大关键优势在于:1) 更便捷可靠的物体级语义理解,因其离散高斯分布表征便于直接标注;2) 视角一致的照片级真实感呈现,能从任意可导航位置生成一致视图[9] - 然而,传统3DGS生成的数据缺乏面积、尺寸、几何结构等基础物理信息,无法反映物体真实几何形状、尺寸及运动碰撞问题,限制了其在需要物理交互的机器人导航任务中的应用[2][9] SAGE-3D数据集的核心构成与特性 - **大规模语义数据集InteriorGS**:包含1000个带精细标注的3DGS室内场景,涵盖755类物体、超过55.4万个实例,每个物体都有类别、实例ID、边界框等信息,使机器人能精准识别如“红色椅子”等精细指令[13] - **VLN基准测试SAGE-Bench**:包含基于上述1000个场景的超过554,000个对象实例的真实碰撞体数据,以及面向VLN任务的200万条“轨迹-指令”对数据[13] - **指令体系**:指令分为高层和低层。高层指令贴近真实场景(如“我渴了,去冰箱拿饮料”),低层指令聚焦基础动作(如“向前走两步”),覆盖5类语义场景和多种动作需求[13][18] - **评价体系**:从任务类型、指令层级、场景复杂度三个维度评估模型,并设计了连续成功率、累积碰撞惩罚与路径平滑度等新指标,以更系统评估导航模型的性能[13][19] SAGE-3D的技术突破与赋能 - **语义赋能**:通过InteriorGS数据集,为3DGS场景中的物体绑定目标级语义(如类别、实例ID),使其从“无意义像素”变成“可理解物体”,支撑精细的语言指令[22][31] - **物理赋能**:采用“3D高斯+网格”混合表示,在保留3DGS高保真渲染能力的同时,从原始网格中提取每个物体的碰撞体作为物理层,解决了机器人“穿墙”问题,使其从“纯视觉工具”变成“可交互环境”[22][31] - **生态完善**:通过提供大规模数据集和基准测试平台,形成了“数据-训练-评估”闭环,推动VLN技术发展[31] SAGE-Bench基准测试平台的性能表现 - **数据体量优势**:SAGE-Bench包含200万条轨迹-指令对和55.4万个精细碰撞物体,在任务量、场景数量上显著超越以往基准[16][17] - **模型性能优异**:在SAGE-Bench测试中,基于SAGE-3D训练的模型表现突出,其中NaVILA-SAGE的成功率达到0.46,远超普通VLN模型[21][24] - **强泛化能力**:仅在SAGE-3D数据上训练的模型,在传统VLN-CE基准的未见过场景中,成功率提升了31%,表明其高保真数据具有强泛化性[21][26] - **渲染效率**:3DGS-Mesh混合表示的单帧渲染平均耗时6.2毫秒,内存占用220MB,优于扫描网格数据的16.7毫秒和850MB,但达到相同性能所需的训练迭代次数更多[25] 对行业的意义与前景 - SAGE-3D重新定义了3DGS的应用边界,使其真正适配机器人导航需求[30] - 该方案为坚持“真实到仿真再到真实”路线的公司提供了新方案,在真机数据昂贵的当下,有助于在数据质量和成本之间找到平衡[30] - 未来,该技术可拓展到更复杂的户外场景,并支持多机器人协作、物体操纵等更高级任务[30]
最近前馈GS的工作爆发了,我们做了一份学习路线图......
自动驾驶之心· 2025-12-13 10:04
3DGS技术趋势与行业动态 - 特斯拉在ICCV的分享中引入3D Gaussian Splatting技术,基于前馈式GS算法实现,成为行业关注亮点[2] - 学术界跟进迅速,出现如小米的WorldSplat和清华的DGGT等新工作,表明3DGS技术正在自动驾驶领域焕发新一轮生机[2] - 技术迭代速度极快,已从静态重建3DGS发展到动态重建4DGS、表面重建2DGS以及前馈式3DGS[4] - 行业普遍共识是采用前馈式GS重建场景,再利用生成技术生成新视角,多家公司正为此开放HC招聘[2] 3DGS技术课程核心内容 - 课程由自动驾驶之心联合工业界算法专家推出,旨在提供从原理到实战的完整3DGS学习路线图[4] - 课程设计耗时两个月,全面覆盖3DGS技术栈,帮助学员吃透点云处理、深度学习理论并掌握实时渲染与代码实战[4] - 讲师Chris来自某Tier1厂商,是算法专家,从事端到端仿真、多模态大模型、世界模型等前沿算法预研与量产,拥有丰富的三维重建实战经验[5] - 课程为离线视频教学,辅以VIP群内答疑和三次线上答疑,开课时间为12月1日,预计两个半月结课[15] 课程详细大纲与结构 - **第一章:背景知识**:涵盖计算机图形学基础,包括三维空间的隐式/显式表达、渲染管线、光线追踪、辐射场渲染,并介绍COLMAP、Gsplat等开发工具,设置基于3D Real Car训练模型的小作业[8] - **第二章:原理和算法**:详细梳理3DGS原理及核心伪代码,讲解动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战选用英伟达开源的3DGRUT框架[9] - **第三章:自动驾驶应用**:聚焦自动驾驶仿真重建,精讲浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战选用DriveStudio框架[10] - **第四章:研究方向**:探讨COLMAP扩展、深度估计及Relighting等重要研究方向,分析其工业界服务价值与学术探索意义[11] - **第五章:前馈式3DGS**:梳理前馈式3DGS的发展历程与算法原理,讲解最新的AnySplat和WorldSplat算法工作[12] - **第六章:答疑讨论**:通过线上交流形式,讨论3DGS岗位需求、行业痛点及开放性问题[13] 课程面向人群与学习收获 - 面向具备一定计算机图形学基础,了解视觉重建、NeRF、3DGS等技术,并拥有概率论、线性代数及Python、PyTorch语言基础的学员[17] - 学习收获包括掌握3DGS完善的理论知识及相关技术栈,掌握算法开发框架并能训练开源模型,获得与学术界及工业界同行持续交流的机会,对实习、校招、社招均有助益[17] - 学员需自备GPU,推荐算力在RTX 4090及以上[17] - 课程提供早鸟优惠,名额仅限30名[5][18]