机器人终于「懂」家务了!伯克利MomaGraph让机器人像人一样做家务
机器之心·2026-01-19 16:54

研究背景:家用机器人执行家务任务的三大核心挑战 - 传统家用移动操作机器人存在三大关键问题,导致其无法有效完成家务[4] - 卡点1:机器人仅能理解物体的空间位置关系,但无法理解其功能关系,例如知道窗户在书桌右边,却不知道把手能控制开关[5] - 卡点2:传统模型将场景视为静态图片,无法动态感知和更新物体状态的变化,例如转动把手后仍认为窗户处于锁定状态[6] - 卡点3:过去的AI模型在规划任务步骤时,会遗漏关键的前提条件,例如规划“烧开水”任务时可能漏掉“插电源”这一必要步骤[7] 突破思路:MomaGraph的“先图后规划”创新框架 - 研究团队提出“Graph-then-Plan”(先图后规划)的核心思路,通过构建“任务导向的场景图”来指导机器人执行任务[9] - MomaGraph场景图的核心特性在于统一了空间关系与功能关系,并能动态更新物体状态,同时紧扣任务需求,过滤无关信息[11][12] - 该方法与传统“看到图片直接猜步骤”的模式形成鲜明对比,使机器人能像人类一样,先理解环境中的“有什么、怎么用、状态如何”,再进行步骤规划[12] 研究方法:从数据到硬件的全链条技术方案 - 为实现MomaGraph落地,研究团队构建了包含数据集、模型、基准测试和真实机器人的完整技术体系[13] - 第一步:构建了MomaGraph-Scenes数据集作为训练素材库,包含6278张多视角家庭照片和1050个任务场景图,覆盖350多个家庭场景和93种任务[15][17] - 第二步:基于70亿参数的Qwen-2.5-VL-7B视觉语言模型,通过强化学习训练出MomaGraph-R1模型,其核心能力是生成精简有用的任务场景图[17][18] - 第三步:设计了MomaGraph-Bench基准测试,包含6种能力测试和4个难度等级,以全面评估机器人能力[20] - 关键一步:选择星动纪元星动Q5轮式人形机器人作为硬件载体,其双臂、移动底座和多视角相机等硬件优势,使MomaGraph技术得以在真实家庭场景中执行[14][22][29] 研究结论:MomaGraph技术显著提升机器人任务执行能力 - 在MomaGraph-Bench基准测试中,MomaGraph-R1模型的整体准确率达到71.6%,比当前最好的开源模型LLaVA-OneVision高出11.4%[26] - 与GPT-5等闭源大模型相比,MomaGraph-R1在规划任务时能100%覆盖关键前提步骤,避免了遗漏“插电源”等错误[26] - 实验证明,同时考虑“空间+功能”关系的统一版模型,在复杂任务(Tier 4)上的准确率达68.1%,显著高于仅看功能(59.0%)或仅看空间(45.4%)的版本[28] - 在真实机器人测试中,星动纪元星动Q5成功完成了开柜子、开微波炉、开电视、关灯等任务,在更复杂的“开灯→找遥控器→开显示器”长任务中,10次测试成功7次[30] - MomaGraph-R1在视觉对应任务上也表现突出,在BLINK基准和MomaGraph-Bench的对应任务中,比最好的开源模型分别高出3.8%和4.8%[32] 行业意义:推动家用服务机器人向实用化迈进 - MomaGraph技术解决了“机器人理解动态家庭场景”的核心难题,使机器人从执行固定程序转变为能根据场景灵活调整行动[35] - 星动纪元星动Q5等执行硬件的成功应用,证明了该技术已具备从实验室走向真实家庭环境的潜力[36] - 该技术为家用服务机器人实现烧水、整理、备餐等实用功能提供了清晰的技术路径,标志着其从“概念”走向“实用”的关键一步[36]

机器人终于「懂」家务了!伯克利MomaGraph让机器人像人一样做家务 - Reportify