英伟达最新｜ 0成本搭建你的SOTA模型！轻量化VLA时代来啦～

文章核心观点 - NVIDIA团队提出的VLA-0模型采用“零改动”设计，不修改基础视觉语言模型的结构，而是将机器人动作转化为文本格式让模型直接预测，该方法在模拟和真实机器人操控任务中超越了多种复杂架构的视觉-语言-动作模型[1] - 该设计的核心优势在于避免了因添加动作生成头或修改词汇表而破坏VLM原有的语言理解能力，同时实现了更高的数据效率和更低的研发与部署成本[2][16] - 实验证明，VLA-0在LIBERO基准测试中以94.7%的平均成功率排名无预训练模型第一，并在真实机器人任务中以60%的成功率超越对比模型12.5个百分点[10][11] VLA-0的核心设计思路 - 模型完全保留基础VLM的结构，仅通过“动作文本化表示”与“精细训练策略”使其具备动作预测能力，核心环节包括输入设计、动作解码以及训练与推理策略[3] - 输入设计复用VLM原生格式，包含系统提示、多模态观测和自然语言任务指令，多图输入方式（单独或拼接）性能差异极小，仅0.2%[4] - 动作解码将连续动作值归一化到固定整数范围（如0-1000），VLM直接生成空格分隔的整数字符串，再反向解析为连续动作执行，动作分辨率可通过调整整数范围任意设定[4] 训练与推理策略 - 训练端采用掩码动作增强策略，随机掩码动作文本中的部分字符，迫使VLM基于图像和任务指令推理动作，该策略提升平均成功率1.2%[4] - 推理端采用集成预测策略，综合多步预测结果取平均值作为最终执行动作，提升动作稳定性，实验显示可提升平均成功率2%[5][6][7] - 训练配置基于30亿参数的Qwen-VL-2.5模型，使用Adam优化器，在8张A100上训练64个epoch仅需32小时，批量大小为192，学习率为5e-6[7] 模拟场景实验结果 - 在LIBERO基准的4个任务套件测试中，VLA-0在无大规模动作预训练的模型中平均成功率达94.7%，排名第一，比第二名模型高1.4%[9][10] - 在Spatial、Object、Goal三个套件中成功率分别为97.0%、97.8%、96.2%，均为最高[10] - 与经过大规模预训练的模型相比，VLA-0无预训练仍超越多个知名模型，如GR00T-N1（93.9%）和MolmoAct（86.8%），平均排名2.8[10] 真实场景实验结果 - 在SO-100真实机器人上测试4个典型操控任务，VLA-0平均成功率达60%，超越基于大规模SO-100数据预训练的SmolVLA模型（47.5%）12.5个百分点[11][13] - 在单张5090 GPU上实现4Hz推理速度，未使用集成预测，若启用集成可进一步提升稳定性但需8个模型实例并行[12] 关键结论与行业影响 - VLA-0证明了简单设计可实现顶尖性能，其“零改动”思路避免了复杂架构改动对VLM原有能力的破坏，为模型工程化落地提供了新方向[14][15] - 模型不依赖大规模机器人动作预训练，仅用任务专属的少量演示数据（如每个真实任务100条演示）就能超越预训练模型，大幅降低数据采集成本[15] - 基于轻量级VLM（Qwen-VL-2.5-3B）实现了性能与部署可行性的平衡，训练成本低、推理速度快，更适合实际机器人系统[16]