Workflow
VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密
具身智能之心·2025-08-02 00:02

新加坡国立大学VLA-OS研究 - 首次系统解构机器人VLA模型任务规划与推理机制 提出任务规划表征与模型范式的统一对比框架 [2] - 构建包含10,000条多模态轨迹的标注数据集 覆盖2D/3D视觉、仿真/现实环境、单/双臂操作等多样化场景 [25][29] - 设计三大可组合VLA范式:ActionOnly-VLA、Integrated-VLA、Hierarchical-VLA 实现公平对比 [23] 技术架构创新 - 采用Qwen 2.5 LLM基座构建0.5B-7B参数VLM家族 配合DINO+SigLIP混合视觉编码器 [20] - 开发标准化动作头与规划头模块 支持KV Cache提取技术实现三大范式灵活组合 [22] - 创新性定义语言/视觉/目标图像三种规划表征 建立32x32网格化空间语义标注体系 [26][30] 核心研究发现 - 视觉规划表征相比语言规划成功率提升13.2% 推理速度提高100倍 [43][58] - Hierarchical-VLA范式展现最强泛化能力 任务分解准确率比Integrated-VLA高4.5% [52][55] - 模型规模超过1B参数时性能下降 在5,000条数据场景下0.5B模型最优 [62][64] 行业应用指南 - 推荐视觉表征与目标图像规划为主 语言规划为辅的混合方案 [68] - 资源充足时优先选择Hierarchical-VLA 资源受限采用隐式Integrated-VLA [68] - 确认任务规划预训练有效性 但需注意持续学习中的遗忘问题 [67][73]