NVIDIA最新！GraspGen：基于扩散模型的六自由度抓取生成框架

核心观点 - GraspGen是一个针对机器人6自由度抓取泛化能力不足问题提出的创新框架，通过将抓取生成建模为迭代扩散过程，结合DiffusionTransformer架构和高效判别器，显著提升了抓取生成能力和适应性 [2] - 该框架采用"生成器上训练"策略大幅提升判别器性能，并通过新发布的大规模模拟数据集（含5300万抓取）实现对不同物体和夹具的适配 [2][9] - 在模拟和真实机器人实验中，GraspGen全面超越基线方法，在单物体场景AUC超过基线48%，在clutter场景任务成功率超过Contact-GraspNet 16.9% [10][13] - 真实机器人实验中整体成功率81.3%，远超M2T2（28%）和AnyGrasp（17.6%），尤其在复杂场景优势明显 [19] 核心方法 - 扩散生成器：将6自由度抓取生成建模为SE(3)空间中的扩散过程，采用DDPM模型计算更快、实现更简单 [4] - 平移归一化：通过数据集统计计算归一化系数，避免人工设置或网格搜索的低效 [4] - 对象编码：采用PointTransformerV3作为骨干网络，相比PointNet++减少5.3mm平移误差，提升4%召回率 [4] - 扩散网络：通过10步去噪生成抓取（远少于图像扩散的数百步），训练损失为预测噪声与真实噪声的L2损失 [5] 判别器设计 - 高效评估：复用生成器的对象编码器，内存使用减少21倍 [7] - 生成器上训练：用生成器生成约7K物体×2K抓取/物体的数据集训练判别器，使其AUC达0.947，显著高于仅用离线数据的0.886 [7][16] 模拟数据集 - 覆盖范围：包含三种夹具（每种约1700万抓取）和36366个网格模型 [11] - 生成方式：每个物体采样2K抓取姿态，通过摇晃测试判断成功 [11] 实验结果 - 单物体场景：在ACRONYM数据集上精度-覆盖率曲线AUC超过基线48% [10] - clutter场景：在100个场景×60任务中，任务成功率和抓取成功率均为最优 [13] - 遮挡鲁棒性：混合训练使模型在完整点云和单视图点云输入下均保持高性能 [14] - 多夹具泛化：在Robotiq-2f-140夹具上AUC达0.68873，远超M2T2的0.24265 [17] 局限 - 依赖深度传感和实例分割质量，对立方体物体表现较差 [21] - 训练需约3K GPU小时（NVIDIA V100），计算成本较高 [21]