成功率最高暴跌36.9%！南洋理工首个“模糊指令”测试，直击具身智能落地软肋

文章核心观点 - 当前基于大语言模型的具身智能系统在处理人类日常模糊、隐晦的指令时存在显著缺陷，现有主流模型的任务成功率在模糊指令下最高可下降36.9% [8][19] - 南洋理工大学MARS Lab等研究团队发布了名为REI-Bench的测试基准，旨在系统性地量化并暴露当前具身智能模型在理解模糊指代方面的能力短板 [7][14] - 研究揭示了当前模型过于“急切”完成任务而忽视理解人类真实语意的倾向，并提出了初步的改进思路，以期推动学术界对该问题的深入探索 [9][24] 根据相关目录分别进行总结行业现状与问题 - 当前具身智能大模型的应用大多建立在理想化假设上，即人类指令总是清晰、完整且无歧义的，但这脱离了真实的人机交互场景 [7] - 在真实场景中，人类（尤其是老人、儿童或认知障碍患者）普遍使用依赖上下文推理的模糊指代（如“那个东西”、“它”）来简化表达 [10][11] - 现有的主流具身智能任务基准（如ALFRED、VirtualHome）几乎全是用清晰的显式指代（如“杯子”、“锅”）构建的，未能覆盖模糊指令的挑战 [12] REI-Bench基准框架 - REI-Bench是一个系统化评估机器人处理“模糊人类指令”能力的测试基准，它并非简单地将词汇变模糊，而是融合语用学理论，构建了覆盖九个层级的模糊性评估体系 [7][14] - 该基准通过两个维度构建测试：1) 指代难度3级：从显式指代、混合指代到隐式指代；2) 上下文干扰3级：包括标准上下文、带有同名干扰项的噪声上下文以及缺失信息的短上下文 [14][15] - 基于指代表达类型与上下文变体的组合，团队构建出覆盖九种指代模糊等级的数据集，用于量化模型的性能缺陷 [14] 主流模型测试结果 - 在REI-Bench测试下，当前主流机器人任务规划框架的表现不佳，任务成功率最高下降达36.9% [8] - 即便在没有任何模糊词汇的“标准上下文”多轮对话中，模型表现也会下降，例如LLaMA3.1-8B+SayCan的成功率从基础的57.7%降至46.9%，表明现有模型对多轮上下文较为敏感 [18] - 随着指令中隐式指代比例的增加，所有模型的成功率均有下降，基线模型（LLaMA3.1-8B+SayCan）在遇到模糊指令时，成功率下降幅度在7.4%到36.9%之间 [19] 错误原因与改进方向 - 模型失败的主要原因是目标物体混淆，即无法正确解析隐式指代所指的真实对象 [23] - 研究发现，当模型过于“急切”地想要完成任务时，就会忽视理解人类真正的含义，这挑战了“只要将LLM集成到机器人系统，它就能自然理解人类复杂语用逻辑”的现有假设 [24] - 引入反思性提示可以引导模型重新识别出正确目标，团队也提供了一个名为TOCC的轻量级即插即用解法，通过前置指令重写将指代解析与任务规划解耦，以有效提高成功率 [22][24]