文章核心观点 - 提出了一种名为ManiAgent的新型智能体架构,旨在解决机器人操作领域Vision-Language-Action模型在复杂推理与长程任务规划中面临的数据稀缺和模型容量限制问题 [1] - 该架构实现了从任务描述、环境输入到机器人操作动作的端到端输出,通过多个智能体协同工作来应对复杂操作场景 [1][2] - 实验验证表明,该框架在仿真和真实世界任务中均取得高成功率,并能作为高效自动化数据采集工具,为VLA模型训练提供高质量数据 [2][10] 方法与架构 - ManiAgent框架由四个核心智能体组成:场景感知智能体、推理智能体、物品级别感知智能体和控制器智能体,分别负责环境感知、子任务分解、目标物体识别和动作序列生成 [11] - 框架通过工具调用、上下文工程、实时性优化与自动数据采集四大关键技术构建完整技术链路 [8] - 工具调用方面,整合了视觉语言模型用于场景感知与物体筛选、大型语言模型用于推理规划与动作生成,以及专用感知工具解决机械臂抓取精度问题 [8][17] 技术实现细节 - 上下文工程通过场景描述优化、子任务上下文管理和物体信息格式化来提升任务相关性与信息传递一致性 [17] - 实时性优化通过参数化动作缓存机制降低动作生成延迟,当新任务与缓存任务匹配时直接调用缓存序列,无需重复查询大型语言模型 [17] - 自动数据采集体系支持随机或规则化场景重置,集成数据记录与筛选功能,整个采集过程仅需少量人工介入,平均每46分钟干预1次 [17] 实验评估与性能 - 在SimplerEnv仿真基准测试中,ManiAgent使用GPT-5版本取得了86.8%的平均任务成功率,显著高于对比方法CogACT的51.3%和pi-0的55.7% [10][22] - 在真实世界实验中,使用WidowX 250S机械臂执行8项代表性任务,最高取得了95.8%的平均成功率 [2][25] - 实验使用的提示词在仿真和实物环境中完全保持一致,未针对任何特殊任务进行调整 [18] 应用价值与前景 - ManiAgent可自动采集高质量训练数据,基于该数据训练的VLA模型性能能够与基于人工标注数据集训练的模型相媲美,显著降低数据采集成本 [2][10] - 该框架打通了“感知-推理-控制”技术链路,为机器人操作框架提供参考,未来将聚焦于强化实时反馈、拓展至移动机器人平台及优化人机交互体验 [26]
原力灵机提出ManiAgent!会 “动手”,会 “思考”,还会“采数据”!
具身智能之心·2025-10-20 18:00