PaliGemma 3B VLM - 财报，业绩电话会，研报，新闻

PaliGemma 3B VLM

搜索文档

具身智能之心· 2025-08-17 00:03

核心观点 - PI0-FAST-DROID是一种基于视觉语言模型的通用机器人策略，能够在复杂真实场景中处理新物体、新位置和新任务，展现出开箱即用的潜力，但性能受提示工程、摄像头视角和任务复杂度影响显著 [4][7][73] - 该策略在透明物体识别、部分遮挡鲁棒性和人类活动干扰处理方面表现突出，但在空间推理、多步骤任务协调和精细操作方面存在明显局限性 [18][24][46] - 通过300多次试验评估，平均任务完成进度为42%，成功率在简单任务中可达20-50%，标志着机器人通用化的重要进展，但距实际应用仍有差距 [73][75][78] 技术架构 - 采用Google DeepMind的3B参数PaliGemma作为视觉编码器，仅依赖未校准单目RGB输入（224x224像素）处理透明、伪装及未见物体 [18][19][26] - 使用FAST动作标记器，基于100万条真实机器人动作轨迹训练，支持跨本体泛化 [75] - 训练数据结合π跨本体数据集和Open X-Embodiment预训练，并在DROID数据集上微调 [75] 能力表现 - 透明物体操作：能稳定抓取透明瓶子并完成放入容器的精准操作，无需传统二维或三维重建技术 [19][26] - 复杂背景识别：在色彩鲜艳棋盘背景中成功识别并抓取形状奇特的"黄色鱼"物体 [20] - 人类活动鲁棒性：侧视摄像头捕捉到移动人类时仍能专注任务执行，因V骨干训练包含人类图像且策略优先腕部摄像头 [24][25] 失败案例与局限性 - 提前停止问题：因语义模糊性或动作解码错误，300步试验中常意外停止，需人工干预 [36][41][43] - 空间推理缺陷：缺乏精确距离度量能力，导致物体放入容器时高度不足或发生碰撞 [46][48] - 多步骤任务困难：无记忆机制导致铰接物体操作（如打开抽屉）时抓住把手后冻结 [40][46] - 提示工程敏感：同一任务在不同措辞下成功率波动极大，如"关上厕所"成功率0% vs "关闭马桶白色盖子"成功率100% [57][58] 任务类别性能 - 拾取放置：依赖腕部摄像头，遮挡时成功率降至0% [63][66] - 倾倒任务：空容器操作进度73.3%，真实液体倾倒进度仅20% [85][86] - 铰接物体：平均进度37.8%，成功率28.5%，抽屉操作进度63-75% [87][92] - 织物操作：平均进度47%，折叠T恤进度35%，但完成折叠任务进度0% [93][100] - YCB基准：进度53.5%，成功率24%，无法跟随品牌名称仅能识别颜色 [95][96][101] - 人机交互：进度53.5%，成功率24%，握手任务进度0% [102][108] - 咖啡机操作：进度仅8%，无法完成放入胶囊或按下按钮等复杂操作 [104][109] 硬件与部署 - 使用Franka Panda机器人（7自由度）配Robotiq 2F-85夹持器，侧视与腕部ZED相机纯RGB输入 [5][75] - 推理需NVIDIA RTX A6000（48GB VRAM），部署便捷性类似开源LLM，支持快速实验室验证 [10][75]