文章核心观点 - 研究团队提出PhysicalAgent框架,旨在解决机器人操控领域的两大瓶颈:视觉-语言-动作模型对任务与平台特定微调的依赖,以及基于世界模型的方法在通用性上的局限 [2] - 该框架的核心思路是利用基础模型承担感知与推理任务,仅保留轻量级机器人适配层负责执行,从而实现跨形态、跨任务的通用操控,并通过迭代修正提升执行鲁棒性 [2] - 框架通过将动作生成重构为条件视频合成,并利用现成的图像-视频基础模型,实现了无需为特定机器人-场景对训练模型,大幅降低了泛化门槛 [6] 出发点与动机 - 当前机器人操控领域存在关键瓶颈,主流视觉-语言-动作模型依赖任务与平台特定微调,更换机器人或环境后鲁棒性显著下降 [2] - 基于世界模型的方法需依赖专门训练的预测模型,且训练数据需精心筛选机器人-场景对,导致通用性受限 [2] 架构设计 - 架构设计的核心原则是感知与推理模块不绑定特定机器人形态,仅需为不同机器人训练轻量级骨骼检测模型,该设计计算开销小、数据需求低 [4] - 视频生成模型具有天然优势,因其预训练了海量多模态数据,已隐含对物理过程、物体交互的理解,且支持API调用,无需本地训练即可快速集成 [4] - 该架构实现了跨形态泛化,同一感知-推理流程能为三种不同形态的机器人生成不同操控任务的视频,无需针对特定机器人重新训练 [4] 视觉语言模型与扩散基世界模型 - 视觉语言模型作为框架的认知核心,通过多次调用实现指令-环境-执行的 grounding,其作用包括任务分解、场景上下文描述、执行监控与修正,并具有模型无关性 [6] - 框架的核心创新是将动作生成重构为条件视频合成,使用现成的图像-视频基础模型,输入机器人当前相机帧与文本指令,生成物理合理的短动作视频 [6] - 与现有方法相比,该框架直接使用通用图像-视频模型,无需为特定机器人-场景对训练模型,具备降低部署成本、支持快速迭代和提供可解释性三大优势 [6] 机器人适配层 - 生成的动作视频需转化为机器人能执行的电机指令,此步骤是框架中唯一需机器人特定适配的部分 [6] - 适配流程包括使用微调后的YOLO11-Pose模型从合成视频的每帧中提取机器人关节关键点,形成40维特征向量/帧,再通过多输出回归器预测低层级电机指令 [11] - 每个新机器人的适配层训练仅需约1000个样本,约30分钟即可收集完成,并支持第三人称与第一视角相机,兼容不同机器人的感知配置 [11] 实验验证:效果与泛化性 - 实验一验证跨形态/感知模态的泛化性,ANOVA分析显示该框架的成功率显著优于基线(F(4,60)=5.04,p=0.0014),且平台对性能无显著影响(F(2,36)=2.01,p=0.1485),证明了其跨形态泛化能力稳定 [12] - 实验二验证物理机器人的迭代执行鲁棒性,两个物理平台的最终成功率均达到80%,通过迭代修正(UR3平均2.25次,G1平均2.75次)有效弥补首次执行的不足,是提升鲁棒性的核心 [12][13]
PhysicalAgent:迈向通用认知机器人的基础世界模型框架
具身智能之心·2025-09-21 00:03