Workflow
IVA框架
icon
搜索文档
加州大学最新!做什么?教VLA模型拒绝不可能的任务
具身智能之心· 2025-08-26 08:03
研究背景与问题定义 - 视觉-语言-动作(VLA)模型在多模态输入和语言指令下表现优异,但缺乏处理虚假前提指令(涉及环境中不存在物体或条件的命令)的机制 [4] - 虚假前提指令在开放真实环境中普遍存在,例如用户命令机器人抓取不存在的红色马克杯,现有研究仅关注指令正确时的执行成功率,未测试指令无法实现时的系统响应 [6] - 机器人领域尚未探索虚假前提指令的识别与纠正,而NLP和跨模态领域已有相关研究基础 [10] IVA框架核心创新 - 提出统一框架IVA(Instruct-Verify-and-Act),实现虚假前提检测、语言纠正和动作预测的端到端能力 [4] - 构建大规模上下文增强的半合成数据集,包含成对的真实前提指令与虚假前提指令,支撑模型训练 [4] - 采用端到端指令微调策略,冻结视觉编码器和语言编码器,仅微调自回归Transformer解码器,并使用LoRA适配器降低计算开销 [20][23] 实验设计与评估结果 - 在9个RLBench任务上评估,每个任务25个episode,物体位置随机变化,输入包含前视摄像头图像和前5个关节位置 [24] - IVA虚假前提检测准确率提升97.56%,虚假前提场景下的成功响应率提升50.78% [5] - 域内虚假前提检测准确率达100%,域外虚假前提检测准确率达97.78%,而基线模型LLARVA检测率均为0% [23][28] - 真实前提任务成功率IVA为42.67%±8.34%,LLARVA为38.67%±8.55%,统计上无显著差异 [28] 性能表现对比 - IVA在全部9个任务的整体成功率和虚假前提检测率均显著优于LLARVA,例如slide block任务整体成功率IVA达96%(LLARVA为44%),sweep to dustpan任务达94%(LLARVA为30%) [25] - 真实前提任务执行性能部分任务略低于基线(如open drawer任务IVA为32% vs LLARVA 40%),但差异可忽略 [25] 应用局限与挑战 - 数据集基于RLBench模拟环境,物体、场景和任务受限,虚假前提分布与真实人类-机器人交互存在差异 [26] - 未验证真实世界泛化性,视觉外观、传感器噪声和语言使用差异可能导致性能下降 [26] - 语言响应仅基于训练数据中的虚假前提类型,缺乏创造性替代方案,且无法处理多轮澄清对话 [26] - 依赖大型多模态模型,存在计算和内存负担,不适用于实时或资源受限的机器人应用 [27]
加州大学最新!做什么?教VLA模型拒绝不可能的任务
具身智能之心· 2025-08-25 14:00
核心观点 - 提出IVA统一框架 使VLA模型能够识别虚假前提指令并生成语言纠正和替代方案 显著提升检测准确率和响应成功率 [4][9][10] - 构建上下文增强的半合成虚假前提数据集 包含域内和域外两种类型 支撑模型端到端训练 [4][18][20] - 实验证明IVA在9个RLBench任务中虚假前提检测准确率高达97.78%-100% 整体成功率提升显著 [5][23][28] 技术框架 - IVA基于LLARVA模型构建 整合视觉编码器 语言编码器和多模态解码器 输出动作序列和视觉轨迹 [13][17] - 采用LoRA适配器进行端到端微调 冻结视觉和语言编码器 仅训练自回归解码器 [20][23] - 输入包含RGB图像和结构化语言指令 输出8维关节速度序列和末端执行器2D轨迹 [17][24] 数据集构建 - 基于RLBench模拟环境构建数据集 包含65%域内虚假前提和20%域外虚假前提 [18][23] - 域内虚假前提涉及几何相似但不存在物体 域外涉及完全不可能存在的物体或场景 [18] - 每个任务包含800个episode 混合真实与虚假前提指令确保数据平衡 [23] 性能表现 - 虚假前提检测准确率提升97.56% 域内达到100% 域外达到97.78% [5][23][28] - 虚假前提场景成功响应率提升50.78% 整体成功率最高达96% [5][25] - 真实前提任务成功率42.67% 与基线38.67%无显著差异 未损害基础能力 [28] 任务评估 - 评估9个RLBench任务 包括打开抽屉 推动按钮 关闭罐子等 每个任务25个随机episode [24] - 采用三阶段评分:检测阶段分类指令可行性 执行阶段判断任务成功 整体计算平均得分 [22] - IVA在slide block任务真实前提成功率92% sweep to dustpan任务88% [25] 局限性 - 数据集基于模拟环境 物体和任务受限 与真实人类-机器人交互存在差距 [26] - 无法处理多轮澄清对话 语言响应缺乏创造性替代方案 [26] - 依赖大型多模态模型 存在计算和内存负担 不适用于实时机器人应用 [27]