机器人终于「懂」家务了!伯克利MomaGraph让机器人像人一样做家务
具身智能之心·2026-01-20 08:33

文章核心观点 - 加州伯克利和马里兰大学联合推出的MomaGraph技术,通过“先图后规划”的创新思路,显著提升了家用机器人在复杂家庭环境中理解和执行任务的能力,使其告别“人工智障”时刻[1] - 该技术结合了统一的空间与功能关系理解、动态状态更新以及任务导向的信息筛选,并在星动纪元星动Q5轮式人形机器人上成功验证,完成了开柜子、开微波炉等真实家务,标志着家用服务机器人向实用化迈出关键一步[1][11][27] 研究背景:家用机器人的传统技术卡点 - 卡点1:只知空间关系,不知功能关系:传统技术仅能识别物体位置(如“窗户在书桌右边”),但无法理解物体的功能(如“窗户把手能控制开关”),导致机器人知道目标在哪却不知如何使用[4] - 卡点2:静态场景理解,忽略状态变化:传统模型将场景视为静态图片,无法感知和更新机器人操作后引发的物体状态变化(如窗户从“锁着”变为“待打开”),导致后续规划错误[5] - 卡点3:步骤规划缺失关键前提:过去的AI(如GPT-5)直接从图像推断任务步骤,常遗漏关键前提条件(如“烧开水”漏掉“插电源”),而人类会先确认前提再规划[6] 突破思路:任务导向的场景图 - 研究团队提出“Graph-then-Plan”核心思路,即让机器人先构建一张名为“MomaGraph”的任务导向场景图,再基于此图规划执行步骤[8] - 与传统“看到图片直接猜步骤”的方法不同,MomaGraph要求机器人先厘清场景中“有什么、怎么用、状态如何”,再进行规划,类似于人类执行任务前的准备工作[9] 研究方法:全链条技术方案 - 构建统一场景图:MomaGraph同时整合物体的空间关系(如“把手在窗户右侧”)与功能关系(如“把手能控制窗户开关”),并动态更新状态,且仅保留与任务相关的信息[10] - 建立训练数据集:团队创建了MomaGraph-Scenes数据集,包含6278张多视角家庭照片和1050个任务场景图,覆盖超过350个家庭场景和93种任务,作为机器人的“家务课本”[12][14] - 训练核心模型:基于70亿参数的Qwen-2.5-VL-7B视觉语言模型,通过强化学习训练出MomaGraph-R1模型,其能根据任务生成精简有用的场景图,并通过步骤正确性、物体覆盖率和关系准确性三个标准进行评分优化[14][15] - 设立评估基准:设计了MomaGraph-Bench基准,包含6种能力测试,覆盖从简单到复杂共4个难度等级的任务,以全面评估机器人能力[17] - 硬件落地验证:选择星动纪元星动Q5轮式人形机器人作为硬件平台进行真实场景测试,其双臂、移动底座和多视角相机(Intel RealSense D455)的组合,为MomaGraph的“大脑”提供了可靠的“手脚”执行能力[11][19][26] 研究结论:性能大幅提升 - “先图后规划”策略显著优于直接规划:在MomaGraph-Bench基准测试中,MomaGraph-R1模型的总体准确率达到71.6%,比当前最好的开源模型LLaVA-OneVision高出11.4%,并且能100%覆盖任务的前提步骤[23] - 统一理解空间与功能关系效果更佳:在复杂任务(Tier 4)上,MomaGraph-R1(统一版)准确率为68.1%,显著高于仅看功能关系版本的59.0%和仅看空间关系版本的45.4%[25] - 在真实机器人上成功处理复杂任务:使用星动Q5机器人成功完成了开柜子、开微波炉、开电视、关灯等任务,在更难的“开灯→找遥控器→开显示器”长任务中,10次测试成功7次[27] - 视觉对应任务表现突出:MomaGraph-R1在BLINK基准和MomaGraph-Bench的对应任务中,性能分别比最好的开源模型高出3.8%和4.8%[29] 行业意义:推动家用机器人实用化 - MomaGraph技术解决了“机器人理解动态复杂家庭场景”的核心难题,使机器人从执行固定程序转变为能根据场景灵活调整策略[32] - 星动纪元星动Q5等执行硬件的成功整合,证明了该技术已具备从实验室走向真实家庭应用的潜力,为家用服务机器人实现烧水、整理、备餐等实用功能提供了清晰的技术路径[33]