Workflow
VLA2:浙大x西湖大学提出智能体化VLA框架,操作泛化能力大幅提升
具身智能之心·2025-10-24 08:40

文章核心观点 - 提出视觉-语言-动作智能体VLA² 通过调用多样化工具来增强VLA系统能力 旨在解决现有模型在处理完全陌生概念指令时无法迁移操作经验的问题 [1] - VLA²作为系统级集成框架 能够整合任务规划、网络搜索、目标检测等功能模块 从而突破现有VLA模型的执行能力边界 [1] 方法概述 - VLA²包含三大核心模块:初步信息处理、认知与记忆以及核心模块 [3] - 使用GLM-4V进行任务分解 将复杂指令拆解为可执行的子任务序列 [4] - 利用微调后的MM-GroundingDINO进行目标检测 提取物体与位置的边界框 [4] - 通过视觉路径对未知物体进行网页图像检索 生成关键词并构建视觉记忆 辅助模型重新识别 [4] - 通过语言路径将任务中未见的物体名称替换为模型已知的词汇 实现语义对齐 [4] 核心模块与实验验证 - 在原始的LIBERO Benchmark上 VLA²与SOTA的VLA模型进行对比 在Class 2类别中平均成功率为80.1% 略高于OpenVLA的76.5% [6] - 基于LIBERO环境通过更改物体纹理构建三个难度递增测试场景:Easy仅改变物体颜色、Medium替换为数据集中未出现的物体、Hard引入全新物体如茅台酒瓶和青花瓷碗 [7][10] - 在Hard场景中VLA²成功率大幅领先所有其他SOTA模型 达到76.2% 相比于单纯微调OpenVLA的32.0% 取得了44.2%的优势 [9] - 对VLA²三大关键机制进行消融实验 结果显示视觉掩码注入、语义替换机制和网页检索增强均对模型性能有显著贡献 [11] 总结与展望 - VLA²通过引入外部工具与记忆机制 成功扩展了VLA模型对未知物体的认知与操作能力 为开放世界中的机器人操作任务提供了可行的系统级解决方案 [12] - 未来将进一步探索其在真实世界中的泛化能力 并扩展其支持更多类型的工具与任务 [12]