Workflow
PaliGemma 3B VLM
icon
搜索文档
在复杂真实场景中评估 π0 这类通用 policy 的性能和边界
具身智能之心· 2025-08-17 00:03
核心观点 - PI0-FAST-DROID是一种基于视觉语言模型的通用机器人策略,能够在复杂真实场景中处理新物体、新位置和新任务,展现出开箱即用的潜力,但性能受提示工程、摄像头视角和任务复杂度影响显著 [4][7][73] - 该策略在透明物体识别、部分遮挡鲁棒性和人类活动干扰处理方面表现突出,但在空间推理、多步骤任务协调和精细操作方面存在明显局限性 [18][24][46] - 通过300多次试验评估,平均任务完成进度为42%,成功率在简单任务中可达20-50%,标志着机器人通用化的重要进展,但距实际应用仍有差距 [73][75][78] 技术架构 - 采用Google DeepMind的3B参数PaliGemma作为视觉编码器,仅依赖未校准单目RGB输入(224x224像素)处理透明、伪装及未见物体 [18][19][26] - 使用FAST动作标记器,基于100万条真实机器人动作轨迹训练,支持跨本体泛化 [75] - 训练数据结合π跨本体数据集和Open X-Embodiment预训练,并在DROID数据集上微调 [75] 能力表现 - 透明物体操作:能稳定抓取透明瓶子并完成放入容器的精准操作,无需传统二维或三维重建技术 [19][26] - 复杂背景识别:在色彩鲜艳棋盘背景中成功识别并抓取形状奇特的"黄色鱼"物体 [20] - 人类活动鲁棒性:侧视摄像头捕捉到移动人类时仍能专注任务执行,因V骨干训练包含人类图像且策略优先腕部摄像头 [24][25] 失败案例与局限性 - 提前停止问题:因语义模糊性或动作解码错误,300步试验中常意外停止,需人工干预 [36][41][43] - 空间推理缺陷:缺乏精确距离度量能力,导致物体放入容器时高度不足或发生碰撞 [46][48] - 多步骤任务困难:无记忆机制导致铰接物体操作(如打开抽屉)时抓住把手后冻结 [40][46] - 提示工程敏感:同一任务在不同措辞下成功率波动极大,如"关上厕所"成功率0% vs "关闭马桶白色盖子"成功率100% [57][58] 任务类别性能 - 拾取放置:依赖腕部摄像头,遮挡时成功率降至0% [63][66] - 倾倒任务:空容器操作进度73.3%,真实液体倾倒进度仅20% [85][86] - 铰接物体:平均进度37.8%,成功率28.5%,抽屉操作进度63-75% [87][92] - 织物操作:平均进度47%,折叠T恤进度35%,但完成折叠任务进度0% [93][100] - YCB基准:进度53.5%,成功率24%,无法跟随品牌名称仅能识别颜色 [95][96][101] - 人机交互:进度53.5%,成功率24%,握手任务进度0% [102][108] - 咖啡机操作:进度仅8%,无法完成放入胶囊或按下按钮等复杂操作 [104][109] 硬件与部署 - 使用Franka Panda机器人(7自由度)配Robotiq 2F-85夹持器,侧视与腕部ZED相机纯RGB输入 [5][75] - 推理需NVIDIA RTX A6000(48GB VRAM),部署便捷性类似开源LLM,支持快速实验室验证 [10][75]