Workflow
加州大学最新!做什么?教VLA模型拒绝不可能的任务
具身智能之心·2025-08-26 08:03

研究背景与问题定义 - 视觉-语言-动作(VLA)模型在多模态输入和语言指令下表现优异,但缺乏处理虚假前提指令(涉及环境中不存在物体或条件的命令)的机制 [4] - 虚假前提指令在开放真实环境中普遍存在,例如用户命令机器人抓取不存在的红色马克杯,现有研究仅关注指令正确时的执行成功率,未测试指令无法实现时的系统响应 [6] - 机器人领域尚未探索虚假前提指令的识别与纠正,而NLP和跨模态领域已有相关研究基础 [10] IVA框架核心创新 - 提出统一框架IVA(Instruct-Verify-and-Act),实现虚假前提检测、语言纠正和动作预测的端到端能力 [4] - 构建大规模上下文增强的半合成数据集,包含成对的真实前提指令与虚假前提指令,支撑模型训练 [4] - 采用端到端指令微调策略,冻结视觉编码器和语言编码器,仅微调自回归Transformer解码器,并使用LoRA适配器降低计算开销 [20][23] 实验设计与评估结果 - 在9个RLBench任务上评估,每个任务25个episode,物体位置随机变化,输入包含前视摄像头图像和前5个关节位置 [24] - IVA虚假前提检测准确率提升97.56%,虚假前提场景下的成功响应率提升50.78% [5] - 域内虚假前提检测准确率达100%,域外虚假前提检测准确率达97.78%,而基线模型LLARVA检测率均为0% [23][28] - 真实前提任务成功率IVA为42.67%±8.34%,LLARVA为38.67%±8.55%,统计上无显著差异 [28] 性能表现对比 - IVA在全部9个任务的整体成功率和虚假前提检测率均显著优于LLARVA,例如slide block任务整体成功率IVA达96%(LLARVA为44%),sweep to dustpan任务达94%(LLARVA为30%) [25] - 真实前提任务执行性能部分任务略低于基线(如open drawer任务IVA为32% vs LLARVA 40%),但差异可忽略 [25] 应用局限与挑战 - 数据集基于RLBench模拟环境,物体、场景和任务受限,虚假前提分布与真实人类-机器人交互存在差异 [26] - 未验证真实世界泛化性,视觉外观、传感器噪声和语言使用差异可能导致性能下降 [26] - 语言响应仅基于训练数据中的虚假前提类型,缺乏创造性替代方案,且无法处理多轮澄清对话 [26] - 依赖大型多模态模型,存在计算和内存负担,不适用于实时或资源受限的机器人应用 [27]