3DGS

搜索文档
ArtGS:3DGS实现关节目标精准操控,仿真/实物双验证性能SOTA!
具身智能之心· 2025-07-04 17:48
研究背景与出发点 - 关节目标操作是机器人领域的关键挑战,核心难点在于复杂的运动学约束和现有方法有限的物理推理能力 [3] - 传统方法如端到端强化学习或模仿学习需要大量数据但常因缺乏物理知识导致动作违反约束 [3] - 3D视觉方法如GAMMA、RPMArt存在点云稀疏性、无序性和时间一致性不足的问题 [3] - 提出ArtGS框架通过扩展3D高斯溅射整合视觉-物理建模,优化关节骨骼参数保证物理一致性 [3] 核心框架与技术细节 - ArtGS包含三个关键模块:静态高斯重建、VLM基于骨骼推理、动态3D高斯关节建模 [4] 静态3D高斯重建 - 通过3D高斯溅射从多视图RGB-D图像重建高保真3D场景,场景表示为3D高斯球集合 [5] - 利用URDF文件和改进的Denavit-Hartenberg正运动学构建变换矩阵控制高斯点运动 [5] VLM基于骨骼推理 - 借助微调的视觉-语言模型InternVL-2.5-4B初始化关节参数估计 [6] - 通过3DGS新视图合成能力生成目标正视图辅助VLM输出视觉问答结果 [6] - 对旋转关节和移动关节分别采用PCA和边界框叉积方法估计初始关节参数 [8][9] 动态3D高斯关节建模 - 通过阻抗控制实现机械臂与环境的交互,结合微分渲染优化关节参数 [10] - 高斯点的均值和旋转因子通过线性混合蒙皮变换到关节空间 [10] - 通过最小化包含L1损失、结构相似性损失和正则化项的损失函数优化关节参数 [10] 实验验证与结果分析 关节参数估计 - ArtGS在关节轴误差和关节原点误差上显著低于ANCSH、GAMMA、Ditto等方法 [12] - 例如在洗碗机上ArtGS的AE为3.01°、OE为2.17cm,远低于ANCSH的15.32°和9.26cm [13] 关节目标操作 - 模拟环境中ArtGS操作成功率达62.4%-90.3%,显著高于TD3的3.1%-6.6%和Where2Act的8.4%-11.2% [14][15] - 真实世界实验中ArtGS对抽屉操作成功率达10/10,对柜子达9/10 [17] 关键能力验证 - ArtGS能通过3DGS可微分渲染优化参数,即使VLM初始轴估计误差超过20°仍能提升操作成功率 [19] - 具备跨机械臂适应性,能精确重建Franka、xArm7等不同机械臂 [19] 总结与展望 - ArtGS将3D高斯溅射转化为关节目标的视觉-物理模型,提升优化效率并解决遮挡问题 [20] - 未来方向将扩展至更复杂场景,提升对多关节、高动态目标的建模与操作能力 [21]
肝了几个月,新的端到端闭环仿真系统终于用上了。
自动驾驶之心· 2025-07-03 20:41
技术突破与创新 - 神经场景表征发展中出现Block-NeRF等方法,但无法处理动态车辆,限制了自动驾驶环境仿真的应用 [2] - 浙大提出Street Gaussians技术,基于3DGS开发动态街道场景表示,解决训练成本高和渲染速度慢的问题,实现半小时内训练并以135 FPS速度渲染1066×1600分辨率图像 [2] - 动态场景表示为静态背景和移动车辆的点云组合,每个点分配3D高斯参数(位置、不透明度、协方差)和球面谐波模型表示外观 [3][4] - 背景模型使用世界坐标系点云,每个点包含3D高斯参数(协方差矩阵、位置向量)、不透明度、球面谐波系数和3D语义概率 [8] - 物体模型引入可学习跟踪车辆姿态,局部坐标系定义的位置和旋转通过跟踪姿势转换到世界坐标系,并采用4D球谐函数解决移动车辆外观建模的存储问题 [11][12] - 使用LiDAR点云初始化场景表示,对稀疏区域结合SfM点云补充,物体模型初始化采用3D边界框内聚合点或随机采样 [17] 算法优化与效果 - 4D球谐函数有效消除动态场景渲染中的伪影,提升外观建模准确性 [16] - 静态场景重建通过体素下采样和可见性过滤优化点云初始化,动态场景重建利用可学习姿态参数解决跟踪噪声问题 [17][11] - 自动驾驶场景重建实现动静态物体分解,支持场景编辑和闭环仿真应用 [43] 行业应用与课程 - 3DGS技术已衍生多个子方向(4D GS、场景编辑等),在自动驾驶仿真闭环中具有重要应用价值 [23][43] - 业内推出首门3DGS全栈实战课程,覆盖视觉重建基础、静态/动态场景重建、自动驾驶场景优化等模块,结合代码实战与论文带读 [26][33][35][37][39][41][43][45][47] - 课程由头部自动驾驶公司算法专家设计,目标培养学员掌握3DGS核心理论、前沿算法及实际应用能力 [50][53][54]
推理时间减少70%!前馈3DGS「压缩神器」来了,浙大Monash联合出品
量子位· 2025-06-05 16:32
比如编码器容量有限,难以处理密集的多视角输入。 而 ZPressor ,一种即插即用的轻量级模块——可以无缝集成到现有的前馈3DGS模型中,增强模型密集视角扩展性和性能。 在36个输入视图下提升4.65dB,推理时间减少70%,显存占用减少80%,并拓展可输入的视图数目到接近500个。 ZIP Lab和Monash团队 投稿 量子位 | 公众号 QbitAI 在增强现实(AR)和虚拟现实(VR)等前沿应用领域,新视角合成 (Novel View Synthesis,NVS) 正扮演着越来越关键的角色。3D高 斯泼溅 (3D Gaussian Splatting,3DGS) 凭借其革命性的实时渲染能力和卓越的视觉质量,迅速成为NVS领域备受关注的技术方案。 现有的前馈3D高斯泼溅 (Feed-Forward 3D Gaussian Splatting,3DGS) 模型,虽然在实时渲染和高效生成3D场景方面取得了显著进 展,但仍存在一些关键缺陷。 信息过载:前馈3DGS的"甜蜜负担" 深入分析现有前馈3DGS模型的架构,可以发现其核心症结在于编码器容量的有限性。 当输入视图变得密集时,编码器难以有效处理随之而来的 ...
3D高斯泼溅算法大漏洞:数据投毒让GPU显存暴涨70GB,甚至服务器宕机
量子位· 2025-04-22 13:06
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 随着3D Gaussian Splatting(3DGS)成为新一代高效三维建模技术,它的自适应特性却悄然埋下了安全隐患。在本篇 ICLR 2025 Spotlight 论文中,研究者们提出首个专门针对3DGS的攻击方法——Poison-Splat,通过对输入图像加入扰动,即可显著拖慢训练速度、暴 涨显存占用,甚至导致系统宕机。这一攻击不仅隐蔽、可迁移,还在现实平台中具备可行性,揭示了当前主流3D重建系统中一个未被重视的 安全盲区。 引言:3D视觉的新时代与未设防的后门隐患 过去两年,3D视觉技术经历了飞跃式发展,尤其是由 Kerbi等人在2023年提出的 3D Gaussian Splatting (3DGS) ,以其超高的渲染效率 和拟真度,一跃成为 替代NeRF的3D视觉主力军 。 你是否用过 LumaAI、Spline 或者 Polycam 之类的应用上传图片生成三维模型?它们背后很多就用到了3DGS技术。3D高斯泼溅无需繁重 的神经网络,仅靠一团团显式的、不固定数量的3D高斯点即可构建逼真的三维世界。 但你知道吗?这个看起来高效又灵活的"新王者" ...