虚假前提数据集

搜索文档
加州大学最新!做什么?教VLA模型拒绝不可能的任务
具身智能之心· 2025-08-25 14:00
核心观点 - 提出IVA统一框架 使VLA模型能够识别虚假前提指令并生成语言纠正和替代方案 显著提升检测准确率和响应成功率 [4][9][10] - 构建上下文增强的半合成虚假前提数据集 包含域内和域外两种类型 支撑模型端到端训练 [4][18][20] - 实验证明IVA在9个RLBench任务中虚假前提检测准确率高达97.78%-100% 整体成功率提升显著 [5][23][28] 技术框架 - IVA基于LLARVA模型构建 整合视觉编码器 语言编码器和多模态解码器 输出动作序列和视觉轨迹 [13][17] - 采用LoRA适配器进行端到端微调 冻结视觉和语言编码器 仅训练自回归解码器 [20][23] - 输入包含RGB图像和结构化语言指令 输出8维关节速度序列和末端执行器2D轨迹 [17][24] 数据集构建 - 基于RLBench模拟环境构建数据集 包含65%域内虚假前提和20%域外虚假前提 [18][23] - 域内虚假前提涉及几何相似但不存在物体 域外涉及完全不可能存在的物体或场景 [18] - 每个任务包含800个episode 混合真实与虚假前提指令确保数据平衡 [23] 性能表现 - 虚假前提检测准确率提升97.56% 域内达到100% 域外达到97.78% [5][23][28] - 虚假前提场景成功响应率提升50.78% 整体成功率最高达96% [5][25] - 真实前提任务成功率42.67% 与基线38.67%无显著差异 未损害基础能力 [28] 任务评估 - 评估9个RLBench任务 包括打开抽屉 推动按钮 关闭罐子等 每个任务25个随机episode [24] - 采用三阶段评分:检测阶段分类指令可行性 执行阶段判断任务成功 整体计算平均得分 [22] - IVA在slide block任务真实前提成功率92% sweep to dustpan任务88% [25] 局限性 - 数据集基于模拟环境 物体和任务受限 与真实人类-机器人交互存在差距 [26] - 无法处理多轮澄清对话 语言响应缺乏创造性替代方案 [26] - 依赖大型多模态模型 存在计算和内存负担 不适用于实时机器人应用 [27]