视觉-语言-动作模型

搜索文档
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
量子位· 2025-09-26 10:08
为此,研究团队提出了 SimpleVLA-RL 。基于veRL框架,他们实现了针对VLA模型的交互式轨迹采样与并行仿真渲染机制。 SimpleVLA-RL团队 投稿 量子位 | 公众号 QbitAI 视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。 然而,现有训练范式存在一些核心瓶颈,比如数据采集成本高、泛化能力不足等。 实验结果表明,该框架在LIBERO与RoboTwin等标准基准测试中均实现了 SoTA 的性能。更为关键的是,即便在有限数据的条件下, SimpleVLA-RL依然能够训练出表现优异的模型并具备极高的泛化能力。 在 "单轨迹 SFT"(每个任务仅1条演示数据)场景下,应用SimpleVLA-RL后,OpenVLA-OFT的LIBERO平均成功率 从48.9%提升至96.9% ,长时序任务LIBERO-Long 从17.3%提升至91.7% 。 降低对大规模演示数据的依赖,提升数据效率; 增强模型在分布偏移场景下的泛化能力; 实现高效的Sim-to-Real迁移,提升真实世界任务性能。 SimpleVLA-RL:端到端在线训练方案 VLA模型作为机器人操控领域的重要研究范式,旨 ...
基于313篇VLA论文的综述与1661字压缩版
理想TOP2· 2025-09-25 21:33
以下文章来源于自动驾驶之心 ,作者Dapeng Zhang等 自动驾驶开发者社区,关注自动驾驶、计算机视觉、感知融合、BEV、部署落地、定位规控、领域方案 等,坚持为领域输出最前沿的技术方向! 压缩版: VLA (Vision Language Action) 模型的出现标志着机器人技术从传统的基于策略的控制向通用机 器人技术的范式转变 。它将视觉语言模型 (VLM) 从被动的序列生成器重构为能够在复杂动态环 境中进行主动操作和决策的智能体 。 该综述对VLA方法进行清晰的分类和系统性的回顾。 VLA方法主要可分为四类:基于自回归、基于扩散、基于强化学习以及混合与专用方法 。 基于自回归 (Autoregression-based) 的模型 自动驾驶之心 . 核心思想: 将动作序列视为时间依赖过程,逐步生成动作 。 创新与发展: 通用智能体: 通过统一的多模态Transformer(如Gato, RT-1/RT-2, PaLM-E)实现跨任务的泛化 。 推理与规划: 结合大语言模型 (LLM) 进行链式思考 (Chain-of-Thought) 和分层规划,处理长时程 和复杂任务 。 轨迹生成: 直接将语言指 ...
全新范式!LLaDA-VLA:首个基于大语言扩散模型的VLA模型
具身智能之心· 2025-09-12 08:05
技术突破 - 首次将掩码扩散模型引入机器人动作生成领域 基于预训练多模态大语言扩散模型微调 支持并行化动作轨迹预测[5] - 提出局部化特殊Token分类技术 将连续动作空间离散化为32个动作Token 仅在动作相关Token集合计算交叉熵损失 非动作Token被屏蔽[8][12] - 开发层级化动作结构解码策略 显式建模动作间与动作内依赖关系 采用先粗后细生成方式提升轨迹连续性[9][13] 性能表现 - 在SimplerEnv环境平均成功率55.5% 超越CogACT模型4.2个百分点[14][21] - 在CALVIN环境平均任务长度4.01 超越OpenVLA模型0.74[14][21] - 真实机械臂WidowX测试平均成功率58% 较π0模型提升23个百分点 较CogACT提升28个百分点[15][21] 模型架构 - 输入为自然语言指令和场景RGB图像 输出多步离散动作序列 每步动作由7个Token表示三维位置变化 三维旋转变化和夹爪状态[7] - 采用SigLIP-2视觉编码器提取特征 基于LLaDA扩散式大语言模型融合多模态信息 通过投影器实现跨模态统一[10] - 通过动作级置信度估计和重采样机制 优先保留高置信度动作 对低置信度动作进行Token级精细重采样[16] 实验验证 - 在SimplerEnv高拟真仿真平台测试精准操作任务 在CALVIN长时序仿真评估多步骤任务 使用ABC-D设置验证泛化能力[17] - 消融实验显示单独使用LSC技术使平均任务长度提升0.79 叠加HAD技术后进一步提升0.58至4.01[18] - 真实机器人测试包含8个操作任务 涵盖域内任务如"将草莓放入碗中"和域外任务如"将立方体放入未知容器"[17]