Workflow
ECoT)
icon
搜索文档
最火VLA,看这一篇综述就够了
量子位· 2025-10-31 12:09
文章核心观点 - VLA(视觉-语言-动作)领域在ICLR 2026会议上呈现爆发式增长,相关投稿量从去年的个位数飙升至164篇,增长18倍 [5] - 该领域旨在让机器人具备“听懂人话、看懂世界、动手干活”的能力,是AI领域极具吸引力的前沿阵地 [6] - 尽管研究繁荣,但需明确VLA定义并关注其与LBM(大型行为模型)的区别,同时主流评测存在“性能天花板”问题,模型高分难以转化为现实能力 [7][10][11][12][13][43][44] VLA概念定义与区分 - VLA模型必须使用经过大规模、互联网级别视觉-语言数据预训练的骨干,以继承语言理解、视觉泛化和任务迁移能力 [7][8] - 代表模型包括Google的PaLI-X以及开源项目Llava、Florence-2等 [9] - 仅将独立视觉与文本编码器拼接的模型应称为“多模态策略”,而LBM强调必须用海量机器人操作数据训练 [10][11] - 在机器人数据上微调的VLA可视为LBM,但LBM不一定是VLA,这区分了不同技术路线的侧重 [12][13] ICLR 2026 VLA八大技术趋势 - **趋势一:高效架构新范式**:离散扩散模型成为新风向,可并行生成整个动作序列,在LIBERO评测中表现近乎饱和 [14][15][16] - **趋势二:具身思维链(ECoT)**:让机器人生成动作前先产生中间推理步骤,提升计划与解释能力,在复杂场景中泛化能力显著提升 [17][18][19] - **趋势三:动作分词器**:核心难点是将连续高频的机器人动作转换为VLM能理解的离散词汇,新进展如FASTer Tokenizer和OmniSAT提升了精度与稳定性 [21][24][30] - **趋势四:强化学习(RL)**:作为VLA策略的微调利器,代表技术残差RL和阶段感知RL在LIBERO和SIMPLER上分别取得99%和98%的成功率 [25][26][31] - **趋势五:效率优化**:通过推理效率优化(如HyperVLA)和显存占用优化(如AutoQVLA)降低硬件门槛,使VLA研究走向平民化 [27][28][32] - **趋势六:视频预测**:利用视频生成模型对时序动态和物理规律的理解,赋予VLA物理直觉,例如《COSMOS POLICY》将视频基础模型微调用于机器人控制 [29][34][35] - **趋势七:更真实的评测基准**:社区正开发新评测方式以打破对现有测试集的过拟合,如《RoboCasa365》和《WorldGym》 [36][39][46] - **趋势八:跨体态学习**:通过《X-VLA》、《XR-1》、《HIMOE-VLA》等架构创新,让模型能驱动不同结构的机器人,是构建通用机器人策略的关键 [40][42][47] 行业现状与关键问题 - 主流仿真评测(如LIBERO、CALVIN)存在“性能天花板”,开源模型仿真得分高但真实世界表现难匹敌头部公司产品 [43][44] - 工业界与学术界评测维度存在差异,工业界更看重开放环境、泛化能力和失败恢复能力 [48] - 未来两大关键问题包括数据质量(噪声、歧义、次优行为限制模型上限)和上下文学习机制向机器人领域的迁移 [49]