视觉语言模型(VLA)
搜索文档
让机器人“舞得更好”的全身运控的方案还有哪些进化空间?
具身智能之心· 2026-01-04 08:32
文章核心观点 文章通过多位行业专家的圆桌讨论,深入探讨了强化学习在视觉语言动作模型及具身智能领域的最新进展、关键挑战与未来趋势,核心观点认为强化学习是提升VLA泛化能力和实现“最后一公里”性能突破的关键技术,但其有效应用依赖于训练范式的创新、高质量仿真环境的构建以及更高效的“不完美”数据利用方法[3][4][8] RL训练范式的创新与价值 - **SPO算法被Pi0.6引用**:张强及其团队开发的Simple Policy Optimization算法被Pi0.6的强化学习部分用作基准算法,这标志着其工作获得了业界重要认可[3] - **RL的核心价值在于利用“不完美”数据**:Pi0.6提出了一个重要观点,即基座模型预训练的数据质量因领域而异,在自动驾驶和具身智能中,大量采集的数据可能只有约1%到10%是“完美”可用的[4][5],RL的价值函数可以对行为进行评分,从而将大量原本被丢弃的非完美数据利用起来,这对于数据稀缺的具身智能领域至关重要[5][6] - **RL与模仿学习的协同范式**:当前一个逐渐标准化的训练范式是先用模仿学习训练基座模型,再用强化学习进行最后的性能提升,即跑“最后一公里”[3][20],模仿学习能高效地将模型提升到一定水平(如80分),而强化学习则能通过探索跳出局部最优,从长程任务结果上进行优化,两者结合是合理路径[20] RL for VLA的框架与工具发展 - **现有工具无法满足需求**:在探索RL与VLA结合时,发现缺乏能够支撑大规模研究的专用框架,现有框架多为大语言模型推理设计,无法满足VLA+RL在策略类型、仿真与真实世界训练、异构硬件支持等方面的需求[9][10] - **Rlinf框架的诞生与目标**:为填补工具空白,一个由高校和公司组成的约30人团队开发了名为“Rlinf”的专用框架,其设计目标是全面支持VLA+RL,涵盖on/off policy、online/offline、仿真与真实世界RL以及国产异构卡等[10][11],该框架的开发投入巨大,仅算力成本就可能达到千万级别[10][11] - **框架开发强调代码质量与扩展性**:开发团队对代码质量要求极高,为了支持目前已涵盖的近十种主流仿真器,正在进行大规模重构以优化环境接口,确保框架的长期工程可行性[15][17] Sim2Real与3D感知技术的挑战与实践 - **仿真真实性是核心瓶颈**:目前没有仿真引擎能达到与真实世界一模一样的程度,人眼可轻易分辨的“不真实感”构成了sim2real的巨大鸿沟,这直接影响了依赖仿真进行训练的强化学习效果[19][24][28] - **3DGS技术有望缩小视觉鸿沟**:3D Gaussian Splatting作为一种3D重建技术,其生成的结果人眼难以分辨真假,因此被视为连接真实与仿真的有力工具[23][24],它已首次被与RL结合用于操作任务,其显式表征相比神经辐射场更具调控优势[23][24] - **多技术路径探索sim2real**:除了3DGS,行业也在探索其他技术来促进迁移,包括利用文生3D/图生3D技术进行场景生成与重建[21],使用双目传感器作为仿真与真实环境的适配器[22],以及研发具备强大几何表达能力的3D视觉基础模型来提升感知泛化能力[22] 行业不同场景下的RL应用现状 - **局部运动控制已广泛应用RL**:在双足机器人的局部运动控制层面,强化学习相比传统规则方法优势明显,在鲁棒性和最终效果上都更好,且sim2real迁移相对容易[18] - **VLA层面RL应用仍处探索期**:尽管认可RL的潜力,但一些团队在VLA层面尚未大规模部署RL,主要原因包括缺乏效果得到验证的sim2real仿真器,以及当前优先专注于打好视觉动作模型的基础[19][20] - **任务类型影响sim2real难度**:导航类任务不主动改变物理环境,其sim2real的挑战与自动驾驶类似;而操作类任务因需与物理环境交互,其sim2real的鸿沟目前仍然很大[27][28] 未来发展方向与关注点 - **从单任务优化到多任务泛化**:当前RL for VLA的研究多集中于提高单一任务的成功率上限,未来的一个重要方向是探索如何激发VLA模型所掌握的先验知识,实现更泛化的、多任务的强化学习[30] - **具身智能是高度综合的系统工程**:具身智能的发展需要感知、决策、控制等各个模块的技术共同推进,任何一个模块的短板都会导致系统级表现的不足,因此需要计算机视觉、机器人学等多领域贡献最新技术[25]
理想连发两篇VLA机器人论文
理想TOP2· 2025-12-02 15:29
核心技术发布 - 公司发布Compressor-VLA与AVA-VLA两项技术,旨在解决机器人操作场景中端到端模型过重、过慢及健忘的核心落地难题[1] 现有问题分析 - 现有具身智能大模型存在严重算力浪费,耗费巨量算力处理无关视觉信息(如背景墙纸、地板纹理),导致推理延迟过高,无法满足机器人实时控制需求[2] - 传统任务无关压缩算法在压缩过程中会误删关键任务线索,例如为降低计算量可能保留清晰的桌布图案却丢弃模糊但至关重要的物体边缘或把手位置[2] - 主流VLA模型采用单帧处理模式,丢弃历史上下文信息,导致在面临遮挡、动态变化或长序列任务时因看不懂因果关系而表现笨拙[8] Compressor-VLA解决方案框架 - 采用双通道互补结构:通道一(指挥官)负责全局宏观语义提取,通道二(工匠)负责局部空间几何细节保留,所有视觉处理需先经过语言指令过滤和调制[3] - 核心驱动力为指令即滤镜,直接复用VLA模型内部语言向量,将自然语言指令转化为信号向量动态调整视觉处理器参数,实现智能像素权重调节[4] - 语义任务压缩器使用交叉注意力机制,根据语言指令生成可学习探针进行全局扫描,仅提取任务相关语义信息(如指令为拿杯子则只提取杯子相关信息)[5] - 空间精炼压缩器使用局部窗口注意力机制,将图片切分小窗口并注入语言指令提示,在保留原始空间结构前提下高亮显示任务相关细节(如物体边缘、抓取点)[6] AVA-VLA解决方案框架 - 设计信念状态生成器,负责压缩并保存上一时刻模型思考状态作为短期记忆向量[9] - 核心主动视觉注意力模块结合记忆和当前指令,指导视觉编码器主动搜索画面关键点(如重点看左下角把手,忽略背景桌子)[9] - 采用交叉检索策略,以当前图像特征为查询方,上一时刻记忆向量为被查询方,计算连续增益系数以放大关键区域信号(如物体边缘)并衰减无关区域信号(如背景墙)[9][10] - 训练时引入注意力平衡惩罚机制,强制所有视觉Token平均权重维持在合理预设值(如0.6)附近,防止模型偷懒,必须有选择性地分配注意力[10] 技术效果与优势 - 数据流转过程为:感知输入(图像+文本指令)→指令调制→双轨并行处理(语义路提取概念Token,空间路提取特征Token)→融合决策→动作输出(机械臂控制信号)[6] - 推理采用循环推流模式:初始化空记忆→感知与加权(读当前帧,调上一帧记忆,AVA计算权重,增强视觉特征)→决策与更新(预测动作,刷新记忆)→循环下一帧[11] - 相比于单帧处理的OpenVLA,AVA-VLA在光照变化、背景干扰和物体布局变动等高噪声环境下成功率显著提升[11] - AVA模块可删除低权重视觉Token,实验表明即使删除90%视觉信息仅保留10%核心内容,机器人操作成功率几乎无下降,推理速度可大幅提升[11]
理想认为VLA语言比视觉对动作准确率影响更大
理想TOP2· 2025-08-16 20:11
论文核心观点 - 理想发布DriveAction基准测试集,旨在评估VLA模型的人类驾驶决策能力,包含2610个驾驶场景和16185对问答数据 [1][3] - 实验表明VLA模型需同时结合视觉和语言输入才能准确预测动作:无视觉输入时准确率下降3.3%,无语言输入下降4.1%,两者均无下降8.0% [3][6] - 这是首个专为VLA设计的动作驱动基准测试集,数据来自量产辅助驾驶汽车的真实驾驶场景 [3] 数据集与技术细节 - DriveAction数据集已开源,包含导航指令、车道属性和动作决策三类问题,例如判断当前车道属性或是否允许转弯 [3][4] - 数据采集基于"智行家"系统,上月下载量达544次 [3] - 测试集设计涵盖视觉(V)、语言(L)、动作(A)三种模态组合的评估模式 [4][5] 模型性能分析 - 综合评估显示所有模型在完整V-L-A模式下准确率最高(如GPT-4.1 mini达91.43%),纯动作模式(A)最低(如Claude 3.5 Sonnet仅80.63%)[5][6] - 推理模型在V-L-A模式下普遍优于非推理模型(如ol模型93.56% vs GPT-4o 88.84%),但在A模式下优势不明显 [5][6] - 特定任务中模型表现分化:GPT-4o在道路标记语言类问题达90.4分,而Claude 3.7 Sonnet在同类任务仅58.2分 [7][8] 稳定性与行业应用 - GPT-4.1 mini和Gemini 2.5 Pro表现最优稳定性,三次重复测试标准差低于0.3 [9] - 该研究为自动驾驶行业提供标准化评估工具,凸显多模态融合对决策准确性的关键作用 [3][6]