GraspGen
搜索文档
宾夕法尼亚大学!MAESTRO:基于VLM的零样本通用机器人框架
具身智能之心· 2025-11-05 08:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Junyao Shi等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 MAESTRO 是一种以视觉语言模型(VLM)为核心的模块化机器人框架,通过动态组合感知、规划、控制等专用模块,在无需大规模机器人训练数据的情况 下,实现了超越现有视觉语言动作(VLA)模型的零样本操作性能,同时具备可扩展性、可调试性等优势。 论文链接:https://arxiv.org/pdf/2511.00917 核心架构与关键设计 1. 整体框架 MAESTRO 以VLM编码代理为核心,接收语言指令和场景图像后,动态编写代码组合工具模块,形成程序化策略。框架采用闭环交互机制,在执行过程中持续 监控环境反馈,实时调整代码和动作,构成"感知-动作-学习"的自适应循环。 利用VLM已有的强大通用能力,避免对机器人专属数据的依赖; 通过模块化设计整合机器人领域成熟的专用工具,弥补VLM在低级别操作上的不足; 突破传统模 ...
NVIDIA最新!GraspGen:基于扩散模型的六自由度抓取生成框架
具身智能之心· 2025-07-21 16:42
核心观点 - GraspGen是一个针对机器人6自由度抓取泛化能力不足问题提出的创新框架,通过将抓取生成建模为迭代扩散过程,结合DiffusionTransformer架构和高效判别器,显著提升了抓取生成能力和适应性 [2] - 该框架采用"生成器上训练"策略大幅提升判别器性能,并通过新发布的大规模模拟数据集(含5300万抓取)实现对不同物体和夹具的适配 [2][9] - 在模拟和真实机器人实验中,GraspGen全面超越基线方法,在单物体场景AUC超过基线48%,在clutter场景任务成功率超过Contact-GraspNet 16.9% [10][13] - 真实机器人实验中整体成功率81.3%,远超M2T2(28%)和AnyGrasp(17.6%),尤其在复杂场景优势明显 [19] 核心方法 - 扩散生成器:将6自由度抓取生成建模为SE(3)空间中的扩散过程,采用DDPM模型计算更快、实现更简单 [4] - 平移归一化:通过数据集统计计算归一化系数,避免人工设置或网格搜索的低效 [4] - 对象编码:采用PointTransformerV3作为骨干网络,相比PointNet++减少5.3mm平移误差,提升4%召回率 [4] - 扩散网络:通过10步去噪生成抓取(远少于图像扩散的数百步),训练损失为预测噪声与真实噪声的L2损失 [5] 判别器设计 - 高效评估:复用生成器的对象编码器,内存使用减少21倍 [7] - 生成器上训练:用生成器生成约7K物体×2K抓取/物体的数据集训练判别器,使其AUC达0.947,显著高于仅用离线数据的0.886 [7][16] 模拟数据集 - 覆盖范围:包含三种夹具(每种约1700万抓取)和36366个网格模型 [11] - 生成方式:每个物体采样2K抓取姿态,通过摇晃测试判断成功 [11] 实验结果 - 单物体场景:在ACRONYM数据集上精度-覆盖率曲线AUC超过基线48% [10] - clutter场景:在100个场景×60任务中,任务成功率和抓取成功率均为最优 [13] - 遮挡鲁棒性:混合训练使模型在完整点云和单视图点云输入下均保持高性能 [14] - 多夹具泛化:在Robotiq-2f-140夹具上AUC达0.68873,远超M2T2的0.24265 [17] 局限 - 依赖深度传感和实例分割质量,对立方体物体表现较差 [21] - 训练需约3K GPU小时(NVIDIA V100),计算成本较高 [21]