MomaGraph技术 - 财报，业绩电话会，研报，新闻

MomaGraph技术

搜索文档

具身智能之心· 2026-01-20 08:33

文章核心观点 - 加州伯克利和马里兰大学联合推出的MomaGraph技术，通过“先图后规划”的创新思路，显著提升了家用机器人在复杂家庭环境中理解和执行任务的能力，使其告别“人工智障”时刻[1] - 该技术结合了统一的空间与功能关系理解、动态状态更新以及任务导向的信息筛选，并在星动纪元星动Q5轮式人形机器人上成功验证，完成了开柜子、开微波炉等真实家务，标志着家用服务机器人向实用化迈出关键一步[1][11][27] 研究背景：家用机器人的传统技术卡点 - **卡点1：只知空间关系，不知功能关系**：传统技术仅能识别物体位置（如“窗户在书桌右边”），但无法理解物体的功能（如“窗户把手能控制开关”），导致机器人知道目标在哪却不知如何使用[4] - **卡点2：静态场景理解，忽略状态变化**：传统模型将场景视为静态图片，无法感知和更新机器人操作后引发的物体状态变化（如窗户从“锁着”变为“待打开”），导致后续规划错误[5] - **卡点3：步骤规划缺失关键前提**：过去的AI（如GPT-5）直接从图像推断任务步骤，常遗漏关键前提条件（如“烧开水”漏掉“插电源”），而人类会先确认前提再规划[6] 突破思路：任务导向的场景图 - 研究团队提出“Graph-then-Plan”核心思路，即让机器人先构建一张名为“MomaGraph”的任务导向场景图，再基于此图规划执行步骤[8] - 与传统“看到图片直接猜步骤”的方法不同，MomaGraph要求机器人先厘清场景中“有什么、怎么用、状态如何”，再进行规划，类似于人类执行任务前的准备工作[9] 研究方法：全链条技术方案 - **构建统一场景图**：MomaGraph同时整合物体的空间关系（如“把手在窗户右侧”）与功能关系（如“把手能控制窗户开关”），并动态更新状态，且仅保留与任务相关的信息[10] - **建立训练数据集**：团队创建了MomaGraph-Scenes数据集，包含6278张多视角家庭照片和1050个任务场景图，覆盖超过350个家庭场景和93种任务，作为机器人的“家务课本”[12][14] - **训练核心模型**：基于70亿参数的Qwen-2.5-VL-7B视觉语言模型，通过强化学习训练出MomaGraph-R1模型，其能根据任务生成精简有用的场景图，并通过步骤正确性、物体覆盖率和关系准确性三个标准进行评分优化[14][15] - **设立评估基准**：设计了MomaGraph-Bench基准，包含6种能力测试，覆盖从简单到复杂共4个难度等级的任务，以全面评估机器人能力[17] - **硬件落地验证**：选择星动纪元星动Q5轮式人形机器人作为硬件平台进行真实场景测试，其双臂、移动底座和多视角相机（Intel RealSense D455）的组合，为MomaGraph的“大脑”提供了可靠的“手脚”执行能力[11][19][26] 研究结论：性能大幅提升 - **“先图后规划”策略显著优于直接规划**：在MomaGraph-Bench基准测试中，MomaGraph-R1模型的总体准确率达到71.6%，比当前最好的开源模型LLaVA-OneVision高出11.4%，并且能100%覆盖任务的前提步骤[23] - **统一理解空间与功能关系效果更佳**：在复杂任务（Tier 4）上，MomaGraph-R1（统一版）准确率为68.1%，显著高于仅看功能关系版本的59.0%和仅看空间关系版本的45.4%[25] - **在真实机器人上成功处理复杂任务**：使用星动Q5机器人成功完成了开柜子、开微波炉、开电视、关灯等任务，在更难的“开灯→找遥控器→开显示器”长任务中，10次测试成功7次[27] - **视觉对应任务表现突出**：MomaGraph-R1在BLINK基准和MomaGraph-Bench的对应任务中，性能分别比最好的开源模型高出3.8%和4.8%[29] 行业意义：推动家用机器人实用化 - MomaGraph技术解决了“机器人理解动态复杂家庭场景”的核心难题，使机器人从执行固定程序转变为能根据场景灵活调整策略[32] - 星动纪元星动Q5等执行硬件的成功整合，证明了该技术已具备从实验室走向真实家庭应用的潜力，为家用服务机器人实现烧水、整理、备餐等实用功能提供了清晰的技术路径[33]