视觉-语言-动作系统 - 财报，业绩电话会，研报，新闻

视觉-语言-动作系统

搜索文档

ICCV2025 | DexVLG：大规模灵巧视觉-语言-抓取模型

具身智能之心· 2025-07-07 17:20

核心观点 - 大型视觉-语言-抓取模型DexVLG能够根据语言指令和单视角RGBD输入预测灵巧抓取姿态，并在模拟和真实世界中表现出强大的零样本泛化能力，抓取成功率超过76% [4][8] - DexGraspNet 3 0数据集包含1 7亿个灵巧抓取姿态和174k个模拟目标，是目前最大的部分感知功能性灵巧抓取数据集 [4][10] - 该研究通过结合多个预训练基础模型和基于流匹配的去噪范式，构建了参数规模达数十亿的DexVLG模型 [8][23] 领域介绍 - 当前大型视觉-语言-动作模型主要局限于平行夹持器控制，缺乏灵巧手控制能力，主要原因是灵巧抓取数据不足 [5] - 现有灵巧抓取数据集要么规模有限，要么缺乏语义感知，无法支持功能性抓取任务 [5] - 该领域需要大规模、部分感知的数据集来提升模型容量和泛化能力 [5] 数据集构建 - DexGraspNet 3 0数据集包含来自Objaverse的174k个目标上的1 7亿个灵巧抓取姿态，每个姿态都经过物理模拟验证并配有语义标题 [10][12] - 使用SAMesh进行零样本几何部分分割，GPT-4o进行部分名称标记，确保数据集具有丰富的语义信息 [12] - 数据集构建采用部分感知的手姿态初始化策略和多个能量函数优化，确保抓取姿态的语义合理性 [13][15][17][18][19] 模型架构 - DexVLG采用预训练的Uni3D点云编码器和Florence-2语言基础模型，参数规模从2 32亿到7 71亿不等 [26][28] - 模型使用基于流匹配的去噪范式生成抓取姿态，通过最小化均方目标函数进行训练 [29] - 点云特征与语言embedding向量拼接后输入大型语言模型，与姿态预测头共享交叉注意力机制 [28] 实验结果 - 在模拟环境中，DexVLG实现了76 1%的抓取成功率和48 1%的部分抓取精度，显著优于基线模型 [32] - 模型展示了强大的零样本泛化能力，能够处理多种物体和语义部分的抓取任务 [30] - 真实世界实验验证了模型预测的抓取姿态与语言指令的良好对齐性 [8]