xArm 7机械臂
搜索文档
Ask-to-Clarify:解决指令的模糊性,端到端为真实具身任务生成动作
具身智能之心· 2025-10-22 11:04
文章核心观点 - 提出名为Ask-to-Clarify的创新框架,旨在解决具身智能体在真实世界中因指令模糊性而无法有效执行任务的关键问题 [4] - 该框架通过多轮对话主动澄清模糊指令,并以端到端方式生成动作,推动智能体从被动执行者向主动协作者转变 [2][4] - 框架结合了视觉语言模型的交互能力和扩散模型的行动生成能力,并通过独特的训练策略和连接模块实现高效协同 [6][10] 任务与框架设计 - 定义了一项新任务,要求智能体在执行指令前必须通过提问解决指令模糊性,更贴近现实交互需求 [12] - 框架核心包含一个用于人机协作的视觉语言模型和一个用于动作生成的扩散模型 [6][10] - 设计了一个连接模块,用于将VLM的输出转化为扩散模型稳定可靠的条件输入,平滑衔接两个组件 [6][10] 训练策略设计 - 采用两阶段“知识隔离”训练策略,第一阶段在交互对话数据上微调VLM,赋予其解决指令模糊性的能力 [15][17] - 第二阶段冻结协作组件参数,联合训练动作生成组件,防止对话能力在动作训练过程中被遗忘 [15][19] - 训练中引入特殊信号标记(如`<AMBG>`, `<NOT_AMBG>`)来指导模型在提问与执行间切换 [17][22] 实验验证与性能 - 在8个真实世界任务中评估框架,任务涵盖物体放置、液体倾倒和积木堆叠三大类 [27][34] - 与基线模型比较显示显著优势:在“将水果放盘子上”任务平均成功率达95%,“倒水”任务达98.3%,“堆叠积木”任务达90%,远超基线模型的57.5%或0% [30][35] - 消融实验证明两阶段训练策略和连接模块对框架成功至关重要 [25][36] - 在低光照(光照减少50%)和存在相似干扰物等非理想条件下,框架表现出良好鲁棒性,性能下降幅度远小于基线模型 [37][38][39][40] 技术实现细节 - 推理阶段通过信号检测器实现VLM交互能力与扩散模型行动能力间的无缝衔接,根据输出标记自动路由流程 [22][23] - 实验使用xArm 7机械臂和RealSense D435摄像头在真实环境中进行 [26] - 第一阶段训练数据由Qwen3-235B-A22B生成,第二阶段使用了手动采集的专家演示数据 [28]