机器人VLA模型研究突破 - 新加坡国立大学邵林团队发表突破性研究VLA-OS,首次系统解构和分析机器人VLA模型的任务规划与推理能力 [3] - 研究通过控制变量实验方法,专注于任务规划的"范式"和"表征"两大方面,统一其他因素 [19] - 研究提出五大核心问题,包括规划表征选择、范式选择、性能瓶颈、scaling law和规划带来的提升 [21] VLA-OS实验平台设计 - 构建架构统一、参数递增的VLM模型家族,选取Qwen 2.5 LLM的0.5B/1.5B/3B/7B四个模型作为基座 [23] - 设计可组合的VLA-OS模型家族,实现ActionOnly-VLA、Integrated-VLA和Hierarchical-VLA三大范式的公平对比 [25][26] - 收集整理六类数据集共约10,000条轨迹,覆盖多种视觉模态、操作环境和执行器种类 [28][29] 关键研究发现 - 视觉规划表征和目标图像表征相比语言表征具有更优性能、更快推理速度和更低训练成本 [46][47] - Hierarchical-VLA范式展现出最强泛化能力和规划能力,优于Integrated-VLA [49][57][63] - 所有VLA范式性能随数据量增加而提升,但模型规模超过3B时性能下降 [72][75] - 含任务规划的VLA范式前向迁移能力更强但遗忘速度更快 [76][79] 设计指南与未来方向 - 首选视觉表征和目标图像规划,语言规划仅作为辅助 [81] - 资源充足选Hierarchical-VLA,资源有限选Integrated-VLA [81] - 未来方向包括探索空间表征神经机制、设计解耦训练机制、开发高效VLM信息蒸馏架构和构建万亿级规划数据集 [86]
VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密
机器之心·2025-07-31 13:11