DexVLG

搜索文档
ICCV2025 | DexVLG:大规模灵巧视觉-语言-抓取模型~
自动驾驶之心· 2025-07-08 21:13
核心观点 - 大型视觉-语言-动作模型在机器人任务中展现出强大泛化能力,但受限于数据收集难度,主要集中在控制简单夹持器末端执行器上 [3] - DexVLG是一个大型视觉-语言-抓取模型,能够根据语言指令通过单视角RGBD输入预测灵巧抓取姿态 [3] - 公司开发了包含1.7亿个灵巧抓取姿态的DexGraspNet 3.0数据集,涉及174,000个模拟目标,配有详细part级描述 [3][9] - DexVLG在模拟中实现超过76%的零样本执行成功率,在真实世界场景中成功实现与部分对齐的抓取 [3][7] 领域介绍 - 大型VLA模型通常具有十亿级参数,并在十亿级机器人数据集上训练,但当前仅限于平行夹持器控制 [4] - 缺乏灵巧抓取数据是主要限制因素,现有数据收集方法需要大量人力或缺乏语义感知 [4] - 功能性灵巧抓取研究受限于小规模数据集,限制了模型容量和泛化能力 [4] 数据集构建 - DexGraspNet 3.0是目前最大的灵巧抓取数据集,包含1.7亿个抓取姿态和174k个object [9][10] - 数据来源于Objaverse数据集,使用GPT-4o进行过滤和处理,生成229K个有效object [11] - 使用SAMesh进行零样本几何部分分割,GPT-4o自动标记部分名称 [11] - 每个抓取姿态都经过基于物理的模拟器IsaacGym验证,并配有语义标题和部分级注释 [9] 模型架构 - DexVLG以单视角点云和语言指令为输入,输出符合指令的抓取姿态 [24] - 采用预训练的Uni3D骨干网络作为点云编码器,参数规模从2300万到3.07亿不等 [25][26] - 使用Florence-2的LLM基础模型处理语言输入,参数规模从2.32亿到7.71亿 [27] - 基于流匹配的姿态去噪模块生成灵巧抓取姿态,与LLM共享Transformer架构 [28] 实验结果 - DexVLG在模拟中实现76.1%的抓取成功率,48.1%的部分抓取精度 [31] - 相比基线模型DGN2.0*+CLIP的68.2%成功率有显著提升 [31] - 模型展示了强大的零样本泛化能力,在真实世界场景中成功执行 [7]
ICCV2025 | DexVLG:大规模灵巧视觉-语言-抓取模型
具身智能之心· 2025-07-07 17:20
核心观点 - 大型视觉-语言-抓取模型DexVLG能够根据语言指令和单视角RGBD输入预测灵巧抓取姿态,并在模拟和真实世界中表现出强大的零样本泛化能力,抓取成功率超过76% [4][8] - DexGraspNet 3 0数据集包含1 7亿个灵巧抓取姿态和174k个模拟目标,是目前最大的部分感知功能性灵巧抓取数据集 [4][10] - 该研究通过结合多个预训练基础模型和基于流匹配的去噪范式,构建了参数规模达数十亿的DexVLG模型 [8][23] 领域介绍 - 当前大型视觉-语言-动作模型主要局限于平行夹持器控制,缺乏灵巧手控制能力,主要原因是灵巧抓取数据不足 [5] - 现有灵巧抓取数据集要么规模有限,要么缺乏语义感知,无法支持功能性抓取任务 [5] - 该领域需要大规模、部分感知的数据集来提升模型容量和泛化能力 [5] 数据集构建 - DexGraspNet 3 0数据集包含来自Objaverse的174k个目标上的1 7亿个灵巧抓取姿态,每个姿态都经过物理模拟验证并配有语义标题 [10][12] - 使用SAMesh进行零样本几何部分分割,GPT-4o进行部分名称标记,确保数据集具有丰富的语义信息 [12] - 数据集构建采用部分感知的手姿态初始化策略和多个能量函数优化,确保抓取姿态的语义合理性 [13][15][17][18][19] 模型架构 - DexVLG采用预训练的Uni3D点云编码器和Florence-2语言基础模型,参数规模从2 32亿到7 71亿不等 [26][28] - 模型使用基于流匹配的去噪范式生成抓取姿态,通过最小化均方目标函数进行训练 [29] - 点云特征与语言embedding向量拼接后输入大型语言模型,与姿态预测头共享交叉注意力机制 [28] 实验结果 - 在模拟环境中,DexVLG实现了76 1%的抓取成功率和48 1%的部分抓取精度,显著优于基线模型 [32] - 模型展示了强大的零样本泛化能力,能够处理多种物体和语义部分的抓取任务 [30] - 真实世界实验验证了模型预测的抓取姿态与语言指令的良好对齐性 [8]