大型视觉-语言-动作模型

搜索文档
ICCV2025 | DexVLG:大规模灵巧视觉-语言-抓取模型~
自动驾驶之心· 2025-07-08 21:13
核心观点 - 大型视觉-语言-动作模型在机器人任务中展现出强大泛化能力,但受限于数据收集难度,主要集中在控制简单夹持器末端执行器上 [3] - DexVLG是一个大型视觉-语言-抓取模型,能够根据语言指令通过单视角RGBD输入预测灵巧抓取姿态 [3] - 公司开发了包含1.7亿个灵巧抓取姿态的DexGraspNet 3.0数据集,涉及174,000个模拟目标,配有详细part级描述 [3][9] - DexVLG在模拟中实现超过76%的零样本执行成功率,在真实世界场景中成功实现与部分对齐的抓取 [3][7] 领域介绍 - 大型VLA模型通常具有十亿级参数,并在十亿级机器人数据集上训练,但当前仅限于平行夹持器控制 [4] - 缺乏灵巧抓取数据是主要限制因素,现有数据收集方法需要大量人力或缺乏语义感知 [4] - 功能性灵巧抓取研究受限于小规模数据集,限制了模型容量和泛化能力 [4] 数据集构建 - DexGraspNet 3.0是目前最大的灵巧抓取数据集,包含1.7亿个抓取姿态和174k个object [9][10] - 数据来源于Objaverse数据集,使用GPT-4o进行过滤和处理,生成229K个有效object [11] - 使用SAMesh进行零样本几何部分分割,GPT-4o自动标记部分名称 [11] - 每个抓取姿态都经过基于物理的模拟器IsaacGym验证,并配有语义标题和部分级注释 [9] 模型架构 - DexVLG以单视角点云和语言指令为输入,输出符合指令的抓取姿态 [24] - 采用预训练的Uni3D骨干网络作为点云编码器,参数规模从2300万到3.07亿不等 [25][26] - 使用Florence-2的LLM基础模型处理语言输入,参数规模从2.32亿到7.71亿 [27] - 基于流匹配的姿态去噪模块生成灵巧抓取姿态,与LLM共享Transformer架构 [28] 实验结果 - DexVLG在模拟中实现76.1%的抓取成功率,48.1%的部分抓取精度 [31] - 相比基线模型DGN2.0*+CLIP的68.2%成功率有显著提升 [31] - 模型展示了强大的零样本泛化能力,在真实世界场景中成功执行 [7]