强化学习（RL） - 财报，业绩电话会，研报，新闻

强化学习（RL）

搜索文档

量子位· 2025-10-31 12:09

文章核心观点 - VLA（视觉-语言-动作）领域在ICLR 2026会议上呈现爆发式增长，相关投稿量从去年的个位数飙升至164篇，增长18倍 [5] - 该领域旨在让机器人具备“听懂人话、看懂世界、动手干活”的能力，是AI领域极具吸引力的前沿阵地 [6] - 尽管研究繁荣，但需明确VLA定义并关注其与LBM（大型行为模型）的区别，同时主流评测存在“性能天花板”问题，模型高分难以转化为现实能力 [7][10][11][12][13][43][44] VLA概念定义与区分 - VLA模型必须使用经过大规模、互联网级别视觉-语言数据预训练的骨干，以继承语言理解、视觉泛化和任务迁移能力 [7][8] - 代表模型包括Google的PaLI-X以及开源项目Llava、Florence-2等 [9] - 仅将独立视觉与文本编码器拼接的模型应称为“多模态策略”，而LBM强调必须用海量机器人操作数据训练 [10][11] - 在机器人数据上微调的VLA可视为LBM，但LBM不一定是VLA，这区分了不同技术路线的侧重 [12][13] ICLR 2026 VLA八大技术趋势 - **趋势一：高效架构新范式**：离散扩散模型成为新风向，可并行生成整个动作序列，在LIBERO评测中表现近乎饱和 [14][15][16] - **趋势二：具身思维链（ECoT）**：让机器人生成动作前先产生中间推理步骤，提升计划与解释能力，在复杂场景中泛化能力显著提升 [17][18][19] - **趋势三：动作分词器**：核心难点是将连续高频的机器人动作转换为VLM能理解的离散词汇，新进展如FASTer Tokenizer和OmniSAT提升了精度与稳定性 [21][24][30] - **趋势四：强化学习（RL）**：作为VLA策略的微调利器，代表技术残差RL和阶段感知RL在LIBERO和SIMPLER上分别取得99%和98%的成功率 [25][26][31] - **趋势五：效率优化**：通过推理效率优化（如HyperVLA）和显存占用优化（如AutoQVLA）降低硬件门槛，使VLA研究走向平民化 [27][28][32] - **趋势六：视频预测**：利用视频生成模型对时序动态和物理规律的理解，赋予VLA物理直觉，例如《COSMOS POLICY》将视频基础模型微调用于机器人控制 [29][34][35] - **趋势七：更真实的评测基准**：社区正开发新评测方式以打破对现有测试集的过拟合，如《RoboCasa365》和《WorldGym》 [36][39][46] - **趋势八：跨体态学习**：通过《X-VLA》、《XR-1》、《HIMOE-VLA》等架构创新，让模型能驱动不同结构的机器人，是构建通用机器人策略的关键 [40][42][47] 行业现状与关键问题 - 主流仿真评测（如LIBERO、CALVIN）存在“性能天花板”，开源模型仿真得分高但真实世界表现难匹敌头部公司产品 [43][44] - 工业界与学术界评测维度存在差异，工业界更看重开放环境、泛化能力和失败恢复能力 [48] - 未来两大关键问题包括数据质量（噪声、歧义、次优行为限制模型上限）和上下文学习机制向机器人领域的迁移 [49]