Workflow
具身场景新框架!Embodied-Reasoner:攻克复杂具身交互任务
具身智能之心·2025-06-21 20:06

研究背景与动机 - 深度思考模型(如OpenAI的o1模型)在数学和编程任务上表现出色,但在具身领域的有效性尚未充分探索[7] - 具身任务需要模型具备空间理解、时间推理和持续自我反思能力,这与纯逻辑推理任务存在显著差异[7] - 研究旨在将深度思考能力扩展到具身交互任务,解决多模态交互和多样化推理模式等挑战[7] 核心框架设计 - 提出Embodied-Reasoner框架,整合视觉搜索、推理和行动能力以应对具身交互任务[3] - 设计数据引擎合成包含情境分析、任务规划等多样化思考过程的具身推理轨迹[3] - 开发三阶段训练流程(模仿学习→拒绝采样调整→反思调整)逐步提升模型能力[3] 任务与数据构建 - 基于AI2-THOR模拟器构建120个室内场景和2100个可交互物体[8] - 设计搜索/操纵/运输/复合四类任务,通过LLMs自动生成符合场景约束的指令[8] - 合成9390个任务指令及64k第一人称视角图像、8M思考标记的训练数据[12][13] 模型性能表现 - 在真实世界任务中成功率56.7%,显著高于OpenAI o1(50%)和o3-mini(43.4%)[17] - 复合任务性能比GPT-4o提升39.9%,长时域任务中推理标记量自适应增加[18] - 通过回忆和反思机制减少重复搜索行为,搜索效率提升24%[18] 技术实现细节 - 动作序列合成通过关联图推导关键动作,并插入额外搜索过程增强真实性[10] - 思考模式分析显示任务规划(35%)和空间推理(28%)出现频率最高[14] - 测试集包含809个案例和25个超长时域任务,采用成功率/搜索效率/完整性三指标评估[16] 未来发展方向 - 探索模型在更多具身任务类型的应用场景[19] - 提升真实世界环境中的泛化能力和适应性[19] - 优化数据引擎和训练流程以进一步提高性能[19]