在复杂真实场景中评估 π0 这类通用 policy 的性能和边界

核心观点 - PI0-FAST-DROID是一种通用机器人策略模型，能够在复杂真实场景中执行多样化任务，展现出强大的视觉-语言理解能力和适应性 [4][13][16] - 模型在透明物体识别、铰接物体操作等任务中表现优异，但存在空间推理不足、动作冻结等局限性 [20][48][39] - 通过300多次试验验证，模型平均任务完成度为42%，对提示工程和摄像头角度高度敏感 [77][12][61] 技术架构 - 采用Google DeepMind的3B参数PaliGemma作为视觉编码器，仅依赖未校准单目RGB输入(224x224像素) [19] - 基于FAST+动作标记器，预训练数据包含100万条真实机器人轨迹，在DROID数据集上微调 [79] - 硬件配置：Franka Panda机械臂+Robotiq夹持器，ZED 2立体相机+ZED Mini腕部摄像头 [79] 性能表现优势领域 - 透明物体操作：成功抓取透明瓶子并完成放置任务，无需特殊重建技术 [20] - 复杂背景识别：在彩色棋盘背景中准确定位黄色鱼形物体 [21] - 人体干扰鲁棒性：侧视摄像头捕捉移动人体时仍能专注任务 [25] 主要局限 - 空间推理缺陷：无法精确判断容器高度导致放置失败率高达50% [48][50] - 动作冻结：30%试验因语义模糊或解码错误导致任务中断 [39][43] - 触觉反馈缺失：对精细物体施力不当，塑料瓶抓取失败率63% [58] 任务分类表现 - 拾取放置：平均完成度53.5%，透明物体成功率76% [82][20] - 铰接物体：抽屉操作成功率63%，但咖啡机操作仅8%进度 [91][111] - 人机交互：物体传递成功率62.5%，但握手任务完全失败 [109][115] - 织物处理：T恤折叠进度35%，报纸折叠成功率62% [99][107] 影响因素 - 提示工程：指令措辞变化可使成功率从0%提升至100% [61] - 摄像头依赖：腕部摄像头遮挡直接导致0%成功率 [67] - 数据偏差：无指令时默认抓取出现频率16.67%的记号笔 [63] 行业意义 - 首次实现开箱即用的跨场景策略部署，突破传统策略环境适应性瓶颈 [4][77] - 验证了视觉语言模型在具身智能领域的迁移潜力，为通用机器人开发提供新范式 [19][28] - 当前20-50%的任务成功率虽不足，但标志机器人技术从专用系统向通用系统的范式转变 [77]