人机交互的当前局限 - 当前智能系统难以理解模糊指令,例如当桌上有多个杯子时,设备无法准确响应“把杯子给我”这样的指令[1] - 人类交流依赖语境与默契,常使用不完整表达如“一会儿提醒我”、“把空调开大点”,而传统自动化系统只能响应明确、结构化的指令[1] 智能体的角色转变 - 智能体正从“被动执行者”向“主动协作者”转变,目标是成为人类在物理世界中的合作伙伴[3] - 与虚拟AI不同,具身智能体需应对现实场景的开放性与不确定性,实现高效、自然、双向的协同作业[3] - 目前大多数视觉-语言-动作模型(VLA)仍以单向模式运行:接收指令后立即执行,缺乏反馈或澄清机制[3] Ask-to-Clarify框架的创新 - 复旦大学研究团队提出“询问澄清”框架,通过多轮对话澄清歧义后,端到端生成低级动作[4] - 该框架运作模式类似人际协作:智能体在接收模糊指令后通过对话明确任务要求,再执行相应动作[4] - 框架由视觉-语言模型(VLM)和扩散模型组成,VLM负责理解场景与指令并生成澄清问题,扩散模型生成连续、流畅的低级动作[5][7] - 通过连接模块集成两个组件,确保智能体的思考与行动保持一致[7] 独特的训练策略 - 采用两阶段“知识隔离”训练策略:第一阶段训练智能体的沟通能力,使其学会识别模糊点并生成澄清问题[8] - 第二阶段专注于动作生成能力培养,同时“冻结”协作组件以保留对话能力,防止遗忘已有技能[10] - 该策略确保智能体先通过多轮对话澄清指令歧义,再以端到端方式生成精确低级动作[10] 框架性能测试结果 - 在8项实际任务测试中,Ask-to-Clarify框架显著优于当前最先进的VLA模型[12] - 具体成功率:放置水果任务达95%,倒水任务达98.3%,堆叠积木任务达90%[12] - 框架在接收模糊指令(需主动澄清)条件下表现卓越,而基线模型直接接收明确指令,凸显其主动协作机制的价值[12] - 在非理想条件下(如低光照或视觉干扰),框架鲁棒性突出:低光照下成功率从90%降至80%,而传统模型性能大幅下降;存在相似物体干扰时成功率维持80%,高于传统模型的65%[13][14] 行业应用前景 - 该框架重新定义了人机协作的可能性,推动具身智能体从单向执行到双向协作的转变[15] - 未来具备协作能力的智能体将在家庭助手、工业机器人、医疗护理、教育培训等领域发挥重要作用[15]
从“被动执行”到“主动协作”,复旦大学Ask-to-Clarify框架重塑人机交互范式
机器人大讲堂·2025-09-30 18:09