MomaGraph技术
搜索文档
机器人终于「懂」家务了!伯克利MomaGraph让机器人像人一样做家务
具身智能之心· 2026-01-20 08:33
文章核心观点 - 加州伯克利和马里兰大学联合推出的MomaGraph技术,通过“先图后规划”的创新思路,显著提升了家用机器人在复杂家庭环境中理解和执行任务的能力,使其告别“人工智障”时刻[1] - 该技术结合了统一的空间与功能关系理解、动态状态更新以及任务导向的信息筛选,并在星动纪元星动Q5轮式人形机器人上成功验证,完成了开柜子、开微波炉等真实家务,标志着家用服务机器人向实用化迈出关键一步[1][11][27] 研究背景:家用机器人的传统技术卡点 - **卡点1:只知空间关系,不知功能关系**:传统技术仅能识别物体位置(如“窗户在书桌右边”),但无法理解物体的功能(如“窗户把手能控制开关”),导致机器人知道目标在哪却不知如何使用[4] - **卡点2:静态场景理解,忽略状态变化**:传统模型将场景视为静态图片,无法感知和更新机器人操作后引发的物体状态变化(如窗户从“锁着”变为“待打开”),导致后续规划错误[5] - **卡点3:步骤规划缺失关键前提**:过去的AI(如GPT-5)直接从图像推断任务步骤,常遗漏关键前提条件(如“烧开水”漏掉“插电源”),而人类会先确认前提再规划[6] 突破思路:任务导向的场景图 - 研究团队提出“Graph-then-Plan”核心思路,即让机器人先构建一张名为“MomaGraph”的任务导向场景图,再基于此图规划执行步骤[8] - 与传统“看到图片直接猜步骤”的方法不同,MomaGraph要求机器人先厘清场景中“有什么、怎么用、状态如何”,再进行规划,类似于人类执行任务前的准备工作[9] 研究方法:全链条技术方案 - **构建统一场景图**:MomaGraph同时整合物体的空间关系(如“把手在窗户右侧”)与功能关系(如“把手能控制窗户开关”),并动态更新状态,且仅保留与任务相关的信息[10] - **建立训练数据集**:团队创建了MomaGraph-Scenes数据集,包含6278张多视角家庭照片和1050个任务场景图,覆盖超过350个家庭场景和93种任务,作为机器人的“家务课本”[12][14] - **训练核心模型**:基于70亿参数的Qwen-2.5-VL-7B视觉语言模型,通过强化学习训练出MomaGraph-R1模型,其能根据任务生成精简有用的场景图,并通过步骤正确性、物体覆盖率和关系准确性三个标准进行评分优化[14][15] - **设立评估基准**:设计了MomaGraph-Bench基准,包含6种能力测试,覆盖从简单到复杂共4个难度等级的任务,以全面评估机器人能力[17] - **硬件落地验证**:选择星动纪元星动Q5轮式人形机器人作为硬件平台进行真实场景测试,其双臂、移动底座和多视角相机(Intel RealSense D455)的组合,为MomaGraph的“大脑”提供了可靠的“手脚”执行能力[11][19][26] 研究结论:性能大幅提升 - **“先图后规划”策略显著优于直接规划**:在MomaGraph-Bench基准测试中,MomaGraph-R1模型的总体准确率达到71.6%,比当前最好的开源模型LLaVA-OneVision高出11.4%,并且能100%覆盖任务的前提步骤[23] - **统一理解空间与功能关系效果更佳**:在复杂任务(Tier 4)上,MomaGraph-R1(统一版)准确率为68.1%,显著高于仅看功能关系版本的59.0%和仅看空间关系版本的45.4%[25] - **在真实机器人上成功处理复杂任务**:使用星动Q5机器人成功完成了开柜子、开微波炉、开电视、关灯等任务,在更难的“开灯→找遥控器→开显示器”长任务中,10次测试成功7次[27] - **视觉对应任务表现突出**:MomaGraph-R1在BLINK基准和MomaGraph-Bench的对应任务中,性能分别比最好的开源模型高出3.8%和4.8%[29] 行业意义:推动家用机器人实用化 - MomaGraph技术解决了“机器人理解动态复杂家庭场景”的核心难题,使机器人从执行固定程序转变为能根据场景灵活调整策略[32] - 星动纪元星动Q5等执行硬件的成功整合,证明了该技术已具备从实验室走向真实家庭应用的潜力,为家用服务机器人实现烧水、整理、备餐等实用功能提供了清晰的技术路径[33]