Workflow
基础世界模型框架
icon
搜索文档
PhysicalAgent:迈向通用认知机器人的基础世界模型框架
具身智能之心· 2025-09-22 08:03
核心观点 - 研究团队提出PhysicalAgent框架,旨在解决机器人操控领域的两大瓶颈:主流视觉-语言-动作模型依赖任务与平台特定微调导致跨平台鲁棒性差,以及基于世界模型的方法通用性受限 [2] - 该框架的核心思路是使用基础模型承担感知与推理的重任,仅保留轻量级机器人适配层负责执行,以实现跨形态、跨任务的通用操控,并通过迭代修正提升执行鲁棒性 [2] 架构设计:泛化性的核心逻辑 - 框架设计原则是感知与推理模块不绑定特定机器人形态,仅需为不同机器人训练轻量级骨骼检测模型,此设计计算开销小且数据需求低 [3] - 视频生成模型具有天然优势,因其预训练了海量多模态数据,隐含对物理过程的理解,且支持API调用无需本地训练即可快速集成 [5] - 视频生成模型能通过文本指令生成执行过程的视觉想象,与人类思考动作的方式一致,无需了解机器人内部结构 [5] - 同一感知-推理流程能为三种不同形态的机器人生成不同操控任务的视频,无需针对特定机器人重新训练,证明了架构的跨形态适配能力 [5] 视觉语言模型的作用 - 视觉语言模型作为框架的认知核心,通过多次调用实现指令-环境-执行的接地,而非单次规划 [6] - 其具体作用分为四步:接收指令与场景图像后分解高level任务为原子子任务;为每个子任务生成带约束的文本提示;每次执行后对比图像判断子任务完成情况并输出决策;框架不绑定特定视觉语言模型,具有模型无关性 [10] 扩散基世界模型:动作生成的新范式 - 核心创新是将动作生成为条件视频合成,而非直接学习控制策略 [6] - 使用现成的图像-视频基础模型,输入机器人当前相机帧与文本指令,生成物理合理的短动作视频 [10] - 对比现有方法,该框架直接使用通用图像-视频模型,无需为特定机器人-场景对训练模型,大幅降低泛化门槛 [10] - 具有三大优势:降低新机器人部署成本;可快速迭代替换更优模型;生成视频可被人类检查以提升安全性 [10] 机器人适配层:从视频到电机指令的落地 - 生成的动作视频需转化为机器人能执行的电机指令,此部分是框架中唯一需机器人特定适配的部分 [6] - 流程包括用微调后的模型从合成视频每帧中提取机器人关节关键点,形成40维特征向量/帧;再用多输出回归器将特征映射为低level电机指令 [11] - 每个新机器人仅需约1000个样本,30分钟即可收集完成训练数据 [11] 实验验证:效果与泛化性 - 实验分为两类,分别验证跨形态/感知模态的泛化性与迭代执行的鲁棒性 [8] - 在形态与感知模态研究中,框架的成功率显著优于基线,验证了扩散视频生成思路的有效性;平台对性能无显著影响,说明框架跨形态泛化能力稳定 [14] - 在物理机器人的迭代执行实验中,双臂UR3和Unitree G1人形机器人的最终成功率均达到80%,首次尝试成功率分别为30%和20%,成功所需平均迭代次数分别为2.25次和2.75次 [13][16] - 迭代修正能有效弥补首次执行的不足,前3次迭代后未完成任务比例骤降,是提升鲁棒性的核心 [16]