IVA框架 - 财报，业绩电话会，研报，新闻

IVA框架

搜索文档

具身智能之心· 2025-08-26 08:03

研究背景与问题定义 - 视觉-语言-动作（VLA）模型在多模态输入和语言指令下表现优异，但缺乏处理虚假前提指令（涉及环境中不存在物体或条件的命令）的机制 [4] - 虚假前提指令在开放真实环境中普遍存在，例如用户命令机器人抓取不存在的红色马克杯，现有研究仅关注指令正确时的执行成功率，未测试指令无法实现时的系统响应 [6] - 机器人领域尚未探索虚假前提指令的识别与纠正，而NLP和跨模态领域已有相关研究基础 [10] IVA框架核心创新 - 提出统一框架IVA（Instruct-Verify-and-Act），实现虚假前提检测、语言纠正和动作预测的端到端能力 [4] - 构建大规模上下文增强的半合成数据集，包含成对的真实前提指令与虚假前提指令，支撑模型训练 [4] - 采用端到端指令微调策略，冻结视觉编码器和语言编码器，仅微调自回归Transformer解码器，并使用LoRA适配器降低计算开销 [20][23] 实验设计与评估结果 - 在9个RLBench任务上评估，每个任务25个episode，物体位置随机变化，输入包含前视摄像头图像和前5个关节位置 [24] - IVA虚假前提检测准确率提升97.56%，虚假前提场景下的成功响应率提升50.78% [5] - 域内虚假前提检测准确率达100%，域外虚假前提检测准确率达97.78%，而基线模型LLARVA检测率均为0% [23][28] - 真实前提任务成功率IVA为42.67%±8.34%，LLARVA为38.67%±8.55%，统计上无显著差异 [28] 性能表现对比 - IVA在全部9个任务的整体成功率和虚假前提检测率均显著优于LLARVA，例如slide block任务整体成功率IVA达96%（LLARVA为44%），sweep to dustpan任务达94%（LLARVA为30%） [25] - 真实前提任务执行性能部分任务略低于基线（如open drawer任务IVA为32% vs LLARVA 40%），但差异可忽略 [25] 应用局限与挑战 - 数据集基于RLBench模拟环境，物体、场景和任务受限，虚假前提分布与真实人类-机器人交互存在差异 [26] - 未验证真实世界泛化性，视觉外观、传感器噪声和语言使用差异可能导致性能下降 [26] - 语言响应仅基于训练数据中的虚假前提类型，缺乏创造性替代方案，且无法处理多轮澄清对话 [26] - 依赖大型多模态模型，存在计算和内存负担，不适用于实时或资源受限的机器人应用 [27]

加州大学最新！做什么？教VLA模型拒绝不可能的任务

具身智能之心· 2025-08-25 14:00

核心观点 - 提出IVA统一框架使VLA模型能够识别虚假前提指令并生成语言纠正和替代方案显著提升检测准确率和响应成功率 [4][9][10] - 构建上下文增强的半合成虚假前提数据集包含域内和域外两种类型支撑模型端到端训练 [4][18][20] - 实验证明IVA在9个RLBench任务中虚假前提检测准确率高达97.78%-100% 整体成功率提升显著 [5][23][28] 技术框架 - IVA基于LLARVA模型构建整合视觉编码器语言编码器和多模态解码器输出动作序列和视觉轨迹 [13][17] - 采用LoRA适配器进行端到端微调冻结视觉和语言编码器仅训练自回归解码器 [20][23] - 输入包含RGB图像和结构化语言指令输出8维关节速度序列和末端执行器2D轨迹 [17][24] 数据集构建 - 基于RLBench模拟环境构建数据集包含65%域内虚假前提和20%域外虚假前提 [18][23] - 域内虚假前提涉及几何相似但不存在物体域外涉及完全不可能存在的物体或场景 [18] - 每个任务包含800个episode 混合真实与虚假前提指令确保数据平衡 [23] 性能表现 - 虚假前提检测准确率提升97.56% 域内达到100% 域外达到97.78% [5][23][28] - 虚假前提场景成功响应率提升50.78% 整体成功率最高达96% [5][25] - 真实前提任务成功率42.67% 与基线38.67%无显著差异未损害基础能力 [28] 任务评估 - 评估9个RLBench任务包括打开抽屉推动按钮关闭罐子等每个任务25个随机episode [24] - 采用三阶段评分：检测阶段分类指令可行性执行阶段判断任务成功整体计算平均得分 [22] - IVA在slide block任务真实前提成功率92% sweep to dustpan任务88% [25] 局限性 - 数据集基于模拟环境物体和任务受限与真实人类-机器人交互存在差距 [26] - 无法处理多轮澄清对话语言响应缺乏创造性替代方案 [26] - 依赖大型多模态模型存在计算和内存负担不适用于实时机器人应用 [27]