轻量级VLA模型Evo-1：仅凭0.77b参数取得SOTA，解决低成本训练与实时部署

文章核心观点 - 上海交大、CMU、剑桥大学团队提出轻量级视觉-语言-动作模型Evo-1，该模型仅含0.77b参数，在无需机器人数据预训练的前提下，实现了低成本训练与高效率部署，并在多项基准测试中取得最先进成果 [3] - Evo-1通过创新的交叉调制扩散变换器与优化集成模块构建高效架构，并采用两阶段训练范式，在保持视觉语言模型强大表征能力的同时，显著提升了在机器人操作任务中的性能与泛化能力 [3][5] - 该模型在模拟与真实世界评估中均展现出卓越性能，其低内存占用和高推理频率使其非常适合在消费级GPU上进行实时部署，为轻量高效视觉学习代理模型的研究提供了新方向 [3][6][22] 行业痛点 - 现有视觉-语言-动作模型通常包含数十亿级参数，导致训练与推理阶段GPU内存消耗巨大且计算成本高昂 [4] - 高计算开销导致模型控制频率低下，严重限制了其在交互式机器人任务中的实时响应能力 [4] - 广泛采用的端到端训练范式会退化视觉-语言骨干模型的表征空间，导致下游任务泛化能力差且易过拟合 [4] - 多数模型依赖大规模机器人数据集的长期预训练，而此类数据集的收集过程耗费人力且成本高昂 [4] Evo-1方法及效果 - Evo-1采用统一的视觉-语言骨干模型，该模型在单阶段多模态范式下预训练而成，通过联合学习感知与语言表征实现了强大的多模态理解能力，显著缩减了整体模型规模 [5] - 模型设计了交叉调制扩散变换器来建模连续动作轨迹，实现高效的时间推理以生成连贯运动，同时大幅提高了推理频率，支持实时交互 [5] - 引入优化集成模块，将融合的视觉-语言表征与机器人的本体感知信息对齐，实现多模态特征在后续控制中的无缝整合 [5] - 提出两阶段训练范式，通过逐步对齐感知与控制模块，显著减轻了视觉语言模型语义空间的畸变，使其在无需机器人数据预训练下即展现强泛化能力 [5] 仿真测试结果 - 在Meta-World基准测试上取得80.6%的平均成功率，超越了先前最佳成绩68.2% [6][18] - 在RoboTwin套件上取得37.8%的平均成功率，超越了先前最佳成绩30.9% [6][18] - 在LIBERO测试上达到94.8%的平均成功率，展现出其在单臂与双臂操作任务中的良好适应性 [3][18] - 与基线模型对比显示，Evo-1在多项任务上的成功率均领先，例如在Meta-World的“Hard”和“Very Hard”任务中分别达到77.2%和79.2%的成功率 [19] 真机部署消耗 - Evo-1在真实世界四个典型机器人任务中的整体成功率达到78%，持续超越其他基线模型 [6][20] - 模型仅占用2.3 GB的GPU内存，并达到16.4 Hz的最高推理频率，在效率与性能之间实现了最佳平衡 [22][23] - 与参数量为3.5B的π0模型相比，Evo-1参数量仅为0.77B（约为其四分之一），但成功率（78%）超越了π0模型（73%）[20][23] 方法详解视觉-语言骨干 - Evo-1采用InternVL3-1B模型作为其视觉语言融合的骨干架构，该模型通过大规模多模态与文本语料库协同学习语言与视觉理解能力，实现了紧密的跨模态对齐 [10] 交叉调制扩散变换器 - 采用条件去噪模块作为动作专家，从视觉-语言骨干生成的多模态嵌入中预测连续控制动作，该模块以扩散变换器形式实现，仅依赖堆叠的交叉注意力层 [11] 集成模块 - 采用基于交叉注意力的集成模块，在对扩散变换器进行条件处理前，有效融合多模态与本体感觉信息，采用特征拼接而非投影的方式处理信息，为动作生成提供全局性上下文 [12] 两阶段训练流程 - 第一阶段冻结整个视觉-语言骨干，仅训练动作专家与集成模块，使动作专家权重逐步与多模态嵌入空间对齐 [13] - 第二阶段解冻视觉语言模型骨干，并对整个架构进行全局微调，实现预训练骨干与动作专家的协同优化，确保更深度的融合 [14] - 该训练流程有效保留了原始语义空间，注意力可视化显示，经过训练后模型仍能保持清晰的语义关注点，而单阶段训练则会导致语义漂移 [14][25]