PI0模型

搜索文档
在复杂真实场景中评估 π0 这类通用 policy 的性能和边界
自动驾驶之心· 2025-08-17 11:23
核心观点 - PI0-FAST-DROID是一种通用机器人策略模型,能够在复杂真实场景中执行多样化任务,展现出强大的视觉-语言理解能力和适应性 [4][13][16] - 模型在透明物体识别、铰接物体操作等任务中表现优异,但存在空间推理不足、动作冻结等局限性 [20][48][39] - 通过300多次试验验证,模型平均任务完成度为42%,对提示工程和摄像头角度高度敏感 [77][12][61] 技术架构 - 采用Google DeepMind的3B参数PaliGemma作为视觉编码器,仅依赖未校准单目RGB输入(224x224像素) [19] - 基于FAST+动作标记器,预训练数据包含100万条真实机器人轨迹,在DROID数据集上微调 [79] - 硬件配置:Franka Panda机械臂+Robotiq夹持器,ZED 2立体相机+ZED Mini腕部摄像头 [79] 性能表现 优势领域 - 透明物体操作:成功抓取透明瓶子并完成放置任务,无需特殊重建技术 [20] - 复杂背景识别:在彩色棋盘背景中准确定位黄色鱼形物体 [21] - 人体干扰鲁棒性:侧视摄像头捕捉移动人体时仍能专注任务 [25] 主要局限 - 空间推理缺陷:无法精确判断容器高度导致放置失败率高达50% [48][50] - 动作冻结:30%试验因语义模糊或解码错误导致任务中断 [39][43] - 触觉反馈缺失:对精细物体施力不当,塑料瓶抓取失败率63% [58] 任务分类表现 - 拾取放置:平均完成度53.5%,透明物体成功率76% [82][20] - 铰接物体:抽屉操作成功率63%,但咖啡机操作仅8%进度 [91][111] - 人机交互:物体传递成功率62.5%,但握手任务完全失败 [109][115] - 织物处理:T恤折叠进度35%,报纸折叠成功率62% [99][107] 影响因素 - 提示工程:指令措辞变化可使成功率从0%提升至100% [61] - 摄像头依赖:腕部摄像头遮挡直接导致0%成功率 [67] - 数据偏差:无指令时默认抓取出现频率16.67%的记号笔 [63] 行业意义 - 首次实现开箱即用的跨场景策略部署,突破传统策略环境适应性瓶颈 [4][77] - 验证了视觉语言模型在具身智能领域的迁移潜力,为通用机器人开发提供新范式 [19][28] - 当前20-50%的任务成功率虽不足,但标志机器人技术从专用系统向通用系统的范式转变 [77]
在复杂真实场景中评估 π0 这类通用 policy 的性能和边界
具身智能之心· 2025-08-17 00:03
核心观点 - PI0-FAST-DROID是一种基于视觉语言模型的通用机器人策略,能够在复杂真实场景中处理新物体、新位置和新任务,展现出开箱即用的潜力,但性能受提示工程、摄像头视角和任务复杂度影响显著 [4][7][73] - 该策略在透明物体识别、部分遮挡鲁棒性和人类活动干扰处理方面表现突出,但在空间推理、多步骤任务协调和精细操作方面存在明显局限性 [18][24][46] - 通过300多次试验评估,平均任务完成进度为42%,成功率在简单任务中可达20-50%,标志着机器人通用化的重要进展,但距实际应用仍有差距 [73][75][78] 技术架构 - 采用Google DeepMind的3B参数PaliGemma作为视觉编码器,仅依赖未校准单目RGB输入(224x224像素)处理透明、伪装及未见物体 [18][19][26] - 使用FAST动作标记器,基于100万条真实机器人动作轨迹训练,支持跨本体泛化 [75] - 训练数据结合π跨本体数据集和Open X-Embodiment预训练,并在DROID数据集上微调 [75] 能力表现 - 透明物体操作:能稳定抓取透明瓶子并完成放入容器的精准操作,无需传统二维或三维重建技术 [19][26] - 复杂背景识别:在色彩鲜艳棋盘背景中成功识别并抓取形状奇特的"黄色鱼"物体 [20] - 人类活动鲁棒性:侧视摄像头捕捉到移动人类时仍能专注任务执行,因V骨干训练包含人类图像且策略优先腕部摄像头 [24][25] 失败案例与局限性 - 提前停止问题:因语义模糊性或动作解码错误,300步试验中常意外停止,需人工干预 [36][41][43] - 空间推理缺陷:缺乏精确距离度量能力,导致物体放入容器时高度不足或发生碰撞 [46][48] - 多步骤任务困难:无记忆机制导致铰接物体操作(如打开抽屉)时抓住把手后冻结 [40][46] - 提示工程敏感:同一任务在不同措辞下成功率波动极大,如"关上厕所"成功率0% vs "关闭马桶白色盖子"成功率100% [57][58] 任务类别性能 - 拾取放置:依赖腕部摄像头,遮挡时成功率降至0% [63][66] - 倾倒任务:空容器操作进度73.3%,真实液体倾倒进度仅20% [85][86] - 铰接物体:平均进度37.8%,成功率28.5%,抽屉操作进度63-75% [87][92] - 织物操作:平均进度47%,折叠T恤进度35%,但完成折叠任务进度0% [93][100] - YCB基准:进度53.5%,成功率24%,无法跟随品牌名称仅能识别颜色 [95][96][101] - 人机交互:进度53.5%,成功率24%,握手任务进度0% [102][108] - 咖啡机操作:进度仅8%,无法完成放入胶囊或按下按钮等复杂操作 [104][109] 硬件与部署 - 使用Franka Panda机器人(7自由度)配Robotiq 2F-85夹持器,侧视与腕部ZED相机纯RGB输入 [5][75] - 推理需NVIDIA RTX A6000(48GB VRAM),部署便捷性类似开源LLM,支持快速实验室验证 [10][75]