Workflow
视觉-语言-动作(VLA)模型
icon
搜索文档
天大&清华最新!GeoVLA:增强VLA模型的3D特征提取能力,鲁棒提升明显(SOTA)
具身智能之心· 2025-08-15 08:05
作者丨 Lin Sun等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 出发点&写在前面 VLA模型已成为一种很有前景的方法,能使机器人遵循语言指令并预测相应动作。然而,当前的VLA模型主要依赖2D视觉输入,忽略了3D物理世界中丰富的几 何信息,这限制了它们的空间感知能力和适应性。这里提出了GeoVLA,一种新颖的VLA框架,它有效地整合3D信息以推进机器人操作。该框架使用视觉-语言 模型(VLM)处理图像和语言指令,提取融合的视觉-语言embedding。同时,它将深度图转换为点云,并采用一种定制的点编码器(称为点embedding网络)独 立生成3D几何embedding。然后,这些生成的embedding被拼接起来,由空间感知动作专家(称为3D增强动作专家)处理,该专家结合来自不同传感器模态的信 息以生成精确的动作序列。 通过在模拟和真实世界环境中的大量实验,GeoVLA展示了卓越的性能和鲁棒性。它在LIBERO和ManiSkill2模拟 ...
保持精度,提升速度!Spec-VLA:首个专为VLA推理加速设计的推测解码框架
具身智能之心· 2025-08-14 08:03
视觉-语言-动作(VLA)模型加速技术 - 视觉-语言-动作(VLA)模型依托视觉语言模型(VLMs)的强大能力取得显著进展,但VLMs庞大的参数规模和自回归解码特性带来较大计算负担 [2] - 投机解码(SD)技术通过高效的草稿生成与并行验证,能在单次前向传播中生成多个token,从而加速大型语言模型(LLMs)推理,但该技术在VLA模型中的应用尚未被探索 [2] Spec-VLA框架创新 - 提出首个专为VLA推理加速设计的SD框架Spec-VLA,针对动作预测任务难度和贪婪解码机制,设计宽松接受机制提升生成速度 [2] - 多场景测试表明,Spec-VLA框架能将接受长度提升44%,相比OpenVLA基线模型实现1.42倍速度提升,且不降低任务成功率 [2] - 该框架无需微调VLA验证模型,仅需训练草稿模型即可对OpenVLA框架实现42%加速 [6] 技术应用与潜力 - Spec-VLA框架的成功凸显了投机执行在VLA预测场景中更广泛应用的潜力 [2] - 相关技术包括推测解码方法、VLA模型介绍以及Spec-VLA框架的实现细节 [7] 行业动态与活动 - 直播活动聚焦推测解码技术在大语言模型加速中的应用,以及Spec-VLA框架的具体实现 [6][7] - 行业其他技术进展包括VR-Robo真实场景机器人导航、CVPR冠军方案BridgeVLA真机性能提升32%等 [9]
Interleave-VLA:首个支持交错图文指令的VLA框架,跨域泛化提升2-3倍
具身智能之心· 2025-08-05 08:03
核心观点 - Interleave-VLA是首个能理解交错图文指令并生成连续动作序列的框架,显著提升机器人操作的灵活性和泛化能力 [2][3] - 通过自动化流程创建了首个大规模真实世界交错具身数据集,包含21万条交互数据和1300万帧图像 [2] - 在仿真和真实机器人实验中,Interleave-VLA的跨域泛化能力比基线模型提升2-3倍,并支持零样本处理手绘草图等图像指令 [3][7] 技术架构与数据集 - 采用模型无关的范式,仅需对现有VLA模型进行最小修改即可实现 [2] - 基于Open X-Embodiment数据集转换纯文本指令为交错图文指令,解决数据缺失问题 [2][7] - 异构数据集和多样化指令图像(包括互联网图像)是其零样本性能的关键 [3] 性能优势 - 支持灵活任务接口,如直接处理用户提供的非结构化图像输入 [3] - 在未知场景或复杂描述任务中表现优于传统纯文本指令模型 [7] - 真机实验中成功验证了域外任务性能提升,具体案例包括手绘草图理解 [3][7] 应用场景 - 适用于需要多模态交互的机器人操作场景,如工业装配或家庭服务 [7] - 可扩展至互联网图像等开放域指令,具备商业化潜力 [3] - 相关技术(如BridgeVLA)已在CVPR竞赛中实现32%的真机性能提升 [10]
面向量产VLA方案!FastDriveVLA:即插即用剪枝模块,推理加速近4倍(北大&小鹏)
自动驾驶之心· 2025-08-05 07:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 今天自动驾驶之心为大家分享 北京大学,小鹏汽车 最新的工作! FastDriveVLA:对抗性视觉token剪枝,50%压缩率下性能保持 97.3%! 如果您有相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与 技术交流群加入 ,也欢迎添加小助理微信AIDriver005 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文链接:https://www.arxiv.org/pdf/2507.23318 不过,VLM/VLA 模型通常将输入图像编码为大量视觉,会带来高昂的计算开销与推理延迟,在车载芯片上实际部署时有着较高的时延压力。为缓解这一问题,现 有研究主要从两个方向进行视觉 token 剪枝: 1. 注意力机制导向方法 依据文本 token 与视觉 token 之间的注意力权重进行筛选。但是因为驾驶任务中的文本指令往往固定且简短,提供的监督信息有限,导致剪枝效果不佳。 2. 相似度导向方法 论文作者 | Jiajun Cao等 编辑 | 自动驾驶之心 写在前面 && 笔者理解 近年来,端到端自动 ...
Spec-VLA:首个专为VLA推理加速设计的推测解码框架
具身智能之心· 2025-08-03 00:02
研究背景与动机 - 视觉-语言-动作(VLA)模型通过预训练视觉编码器或视觉语言模型(VLMs)在机器人动作生成任务中取得显著进展,例如OpenVLA等模型展现出高泛化性 [3] - VLA模型面临两大核心挑战:backbone VLMs参数规模庞大导致计算需求激增,以及自回归(AR)解码策略增加解码延迟 [3] - 现有加速方法存在局限,如模型架构重构或任务特定优化需大量资源,早期退出和雅可比解码等方法迁移到VLA时效果有限 [3] - 推测解码(SD)作为无损加速方案,在LLM中证明有效,但直接应用到VLA仅能带来微小速度提升,亟需针对性设计适配VLA的推测解码框架 [3] 核心框架:Spec-VLA - Spec-VLA是首个专为VLA推理加速设计的推测解码框架,核心是引入draft模型与验证模型的协同机制 [4] - draft模型基于融合的文本和视觉特征,通过自回归解码预测动作token,验证阶段采用松弛接受机制保证动作生成成功率 [4] - draft模型采用Llama解码器层,融合特征级和token级损失数据,接收验证模型的隐藏状态、文本嵌入及视觉嵌入 [5] - 验证模型(如OpenVLA)对draft模型生成的多路径token进行并行验证,确保生成质量 [5] 关键机制:松弛接受 - Spec-VLA提出基于动作token相对距离的松弛接受机制,定义松弛阈值量化draft动作token与验证模型预测token的允许距离 [7] - 当两者距离不超过阈值时接受draft token,否则以验证模型预测结果替换并终止后续token验证 [7] - VLA模型将连续动作维度离散为256个bins,映射为256个动作token,token间距离可通过bin ID的绝对差直接计算,几乎无计算开销 [7] 实验验证 - 在LIBERO模拟基准的四个任务集上评估,以微调后的OpenVLA作为验证模型,再生数据集训练draft模型,每个任务进行50次测试 [9] - 直接应用Eagle框架的加速比为1.08×-1.15×,引入松弛接受后加速比提升至1.22×-1.42×,接受长度从2.10提升至2.94,增幅达25%-44% [10] - 松弛阈值增大时接受长度显著提升(各数据集增幅50%-70%),成功率保持稳定,模型性能越好可容忍的松弛阈值越大 [11] - 案例分析显示松弛条件可减少迭代次数,如"将盘子推到炉子前"任务中非松弛条件需4-5次迭代,松弛条件仅需2-3次 [13] - 松弛接受条件下长序列占比显著提升,如LIBERO-Object中长度4的占比从0.56%增至6.22%,增幅11倍 [14] 结论与局限 - Spec-VLA通过适配VLA模型并引入松弛接受机制,实现1.42×的加速,接受长度提升44% [16] - 局限在于实验未在真实世界机器人场景中开展,受验证模型限制未探索动作分块策略 [16]
都说强化+VLA才是未来?相关工作汇总来啦
具身智能之心· 2025-08-01 08:03
视觉-语言-动作(VLA)模型与强化学习(RL)结合的新范式 - 视觉-语言-动作(VLA)模型与强化学习(RL)结合成为极具前景的新范式,能充分发挥环境试错交互和预收集次优数据的双重优势 [2] 无环境离线RL训练 - MoRE研究通过无环境离线RL训练提升四足机器人VLA模型的可扩展性,论文发表于ICRA2025 [3] - Q-Transformer通过自回归Q函数实现可扩展的离线强化学习,论文发表于2023年 [3] 有环境在线RL训练 - ReinboT通过在线RL增强机器人视觉-语言操作能力,论文发表于ICML2025 [5] - GeRM采用混合专家(MoE)架构构建通用四足机器人模型,项目已开源,论文发表于IROS2024 [5] - 离线Actor-Critic RL可扩展至大型模型,论文发表于ICML2024 [5] 基于仿真器的研究 - OctoNav致力于通用具身导航研究,项目已开源 [6] - TGRPO通过轨迹分组相对策略优化微调VLA模型 [6] - SimpleVLA-RL提供简化版VLA-RL实现,项目已开源 [6] - RFTF利用时序反馈进行具身智能体微调 [6] - VLA-RL通过可扩展RL实现通用机器人操作,项目已开源 [6] - RIPT-VLA采用交互式后训练方法改进VLA模型,项目已开源 [6] - iRe-VLA通过在线RL改进VLA模型,论文发表于RAL2025 [6] - Policy Agnostic RL支持任意类别和骨干网络的离线/在线RL微调,项目已开源 [6] - FLaRe通过大规模RL微调实现自适应机器人策略,论文发表于ICRA2025 [6] 基于真实世界的研究 - DYNA-1模型在性能和产品化方面取得突破,由Dyna公司开发 [9] - ConRFT通过一致性策略强化VLA模型微调,项目已开源 [9] - RLDG通过RL实现通用机器人策略蒸馏,项目已开源 [9] - Hume在VLA模型中引入系统2思维,项目已开源 [9] - 通过价值引导改进机器人基础模型,项目已开源 [9] RL对齐训练 - GRAPE通过偏好对齐实现机器人策略泛化,论文发表于ICLR2025 workshop [11] - SafeVLA通过约束学习实现VLA模型安全对齐,项目已开源 [12]
亿级短视频数据突破具身智能Scaling Law!Being-H0提出VLA训练新范式
量子位· 2025-07-24 15:28
具身智能技术突破 - 具身智能领域当前技术重点在于让机器人从看懂世界到理解意图再到做出动作 [1] - 真机数据匮乏导致视觉-语言-动作(VLA)模型发展受限 现有数据规模与上亿级训练样本需求相差三个数量级 [2] - 北京大学团队利用人类操作视频提取手部运动轨迹 构建了规模达亿级的训练数据集 [3] Being-H0模型创新 - 提出"物理指令微调"方法框架 实现人类手部运动到机器人动作空间的精确映射 [5] - Being-H0是首个基于人类视频手部数据的大规模预训练VLA模型 [6] - 模型假设人类手部运动是最完备的操作执行器 机器人末端执行器均可视为其子集 [6] 数据与方法创新 - 利用短视频时代易获取的人类视频数据 避免仿真环境数据采集的"虚拟-现实"差异问题 [8] - 构建规模达1.5亿的UniHand数据集 整合11个开源数据源的多模态数据 [17][18][20] - 仅使用250万条样本预训练就展现出显著性能提升 [21] 技术框架设计 - 采用分部位动作编码方案 手腕和手指分别设计专用编码器 动作姿态重建误差控制在毫米级 [12] - 物理空间对齐技术消除多源数据在相机参数、观测视角等方面的差异性 [13] - 建立从人类动作到机器人操作的高效转换通道 [14] 性能验证 - 在Pick-Place-Toy等7项任务中 Being-H0表现优于GR00T N1.5和InternVL3模型 [22][23] - 在相同数据量条件下 Being-H0始终展现出稳定的性能优势 [25] - 显著降低真机数据需求 25%数据量即可达到其他模型100%数据量的性能 [25][27] 行业影响 - 突破数据封锁桎梏 为机器人灵巧操作研究开辟新范式 [30] - 团队持续攻坚具身智能大模型、灵巧操作、全身运动控制等核心技术 [31]
一文尽览!近一年自动驾驶VLA优秀工作汇总~
自动驾驶之心· 2025-07-15 20:30
自动驾驶VLA技术进展 - 端到端自动驾驶成为主流范式,视觉-语言-动作(VLA)方法在学术界和工业界快速落地[2] - 理想、文远知行、小米、小鹏等主机厂正在大力尝试VLA技术的量产应用[2] - 2025年学术界和工业界涌现大量优秀工作,重点关注VLA落地可行性、扩散模型轨迹可靠性等问题[2] NavigScene技术突破 - 小鹏汽车提出NavigScene,解决局部传感器数据与全局导航信息的关键差距[2] - 开发三种互补方法:导航引导推理、导航引导偏好优化、导航引导VLA模型[2] - 实验显示显著提升感知、预测、规划和问答任务性能,实现超视距推理能力[2][6] - 在NuInstruct基准测试中,Qwen2.5-7B模型表现最佳,多项指标提升明显[5] AutoVLA创新框架 - UCLA提出AutoVLA,统一推理和动作生成的自回归模型[7] - 采用SFT+GRPO两阶段训练,在NAVSIM取得92.12 PDMS指标[9] - 在nuPlan、nuScenes等多个基准测试中展现竞争优势[8] - 实现自适应推理能力,可根据场景复杂度调整思维模式[12] ReCogDrive三阶段训练 - 华科与小米合作提出三阶段训练框架[13] - 收集2.3M高质量QA数据,通过预训练+模仿学习+强化学习流程[14] - 在NAVSIM基准达到89.6 PDMS,创下新SOTA记录[16] - 比之前最佳方法提升5.6 PDMS[16] 数据集与基准建设 - 清华AIR与博世发布Impromptu VLA数据集,包含80K+精选视频片段[17] - 理想汽车推出DriveAction基准,包含16,185个QA对,覆盖2610个驾驶场景[31] - 实验显示视觉和语言输入缺失会导致动作预测准确率下降3.3%-8.0%[31] - 基准建设被认为是行业未来重点发展方向[50] 技术趋势与挑战 - 思维链、空间理解成为标配技术,但车端必要性存疑[50] - 时序处理研究不足,与实际车端需求存在差距[50] - 轨迹输出形式分文本自回归和扩散模型两大路线[50] - 行业缺乏大规模自动驾驶预训练基座模型[50] - NAVSIM指标已逼近人类专家水平,验证技术可行性[50]
DreamVLA:全球首个“世界知识预测”VLA模型,操作成功率近八成
具身智能之心· 2025-07-10 21:16
研究背景与动机 - 视觉-语言-动作(VLA)模型在机器人操作领域展现出潜力,但现有方法存在信息冗余、缺乏动态和空间知识等问题,难以形成闭环的感知-预测-动作循环 [3] - 人类行动前会形成多模态推理链,而现有VLA模型直接从观测映射到动作,缺乏前瞻推理能力 [3] - 部分方法尝试生成未来帧或关键点辅助动作预测,但仍存在像素冗余、3D空间信息缺失和高层语义不足等局限 [3] 模型设计核心思路 - DreamVLA通过预测动态区域、深度和语义三类核心世界知识,构建更有效的感知-预测-动作循环 [4][5] - 动态区域预测利用光流模型识别任务关键运动区域,避免冗余帧重建,优化目标为最大化对数似然的证据下界 [4] - 深度感知预测采用深度估计算法生成深度图,提供3D空间上下文,通过尺度归一化均方误差训练 [5] - 高层基础特征整合DINOv2和SAM等视觉基础模型的语义特征,通过InfoNCE损失进行对比语义预测 [5] 结构注意力与动作生成 - 块结构注意力机制将查询分解为动态、深度、语义三个子查询,屏蔽子查询间相互注意力,避免跨类型知识泄露 [6] - 采用扩散Transformer解码器从共享潜在特征中分离动作表示,通过迭代自注意力和去噪过程生成动作序列 [8] 实验结果与分析 - 在CALVIN模拟基准上,DreamVLA平均任务长度达4.44,超过RoboVLM(4.25)和Seer(4.28)等方法 [9][10] - 真实世界实验中,DreamVLA在Franka Panda机械臂任务中平均成功率达76.7%,显著高于Diffusion Policy(50.8%)和Octo-Base(45.0%) [10] - 消融实验显示动态区域预测单独使用时增益最大,深度和语义线索增益较小但接近 [11] - 预测未来知识的性能(平均长度4.44)显著优于仅重建当前信息(4.14) [12] - 块结构注意力使平均任务长度从3.75提升至4.44,证明其在抑制跨信号干扰中的有效性 [13] 核心贡献与局限 - 将VLA模型重构为感知-预测-动作模型,通过预测动态、空间和高层语义信息提供前瞻线索 [16] - 提出块结构注意力机制结合扩散Transformer解码器,实现连贯的多步动作推理 [16] - 当前主要适用于平行夹爪操作,依赖RGB数据,场景几何和材料多样性有限 [15]
cVLA:面向高效相机空间VLA模型的关键位姿预测方法
具身智能之心· 2025-07-06 19:54
视觉-语言-动作(VLA)模型研究 - 提出一种新型VLA方法,利用视觉语言模型(VLMs)直接推断机器人末端执行器在图像帧坐标中的位姿,取代传统低级控制指令输出 [2] - 模型设计轻量但高效,采用next-token预测架构学习可执行机器人轨迹,并探索深度图像潜力及解码策略 [2] - 通过模拟数据集训练展现良好模拟到现实迁移能力,结合真实数据验证在机器人系统的有效性 [2] 技术挑战与解决方案 - VLA发展面临三大约束:高计算成本(需大量资源训练)、数据限制(高质量多模态数据集采集难)、评估基准依赖真实世界测试 [3] - 采用可控合成数据集训练轻量VLA系统,基于PaliGemma架构微调,任务定为末端执行器关键位姿单步预测以提升效率 [3][6] - 利用模拟训练构建含丰富相机视角和目标变化的数据集,通过增强设计实现模拟到现实迁移 [3][10] 模型架构与动作表示 - 基础模型基于PaliGemma2微调,输入格式为<实时图像>+<机器人状态>+<任务描述>→<预测轨迹> [6] - 动作表示借鉴RT-1,用离散化令牌编码6自由度夹爪位姿,扩展定位令牌预测深度,分割令牌编码方向 [6] - 深度图通过viridis色图转换为RGB,复用预训练图像编码器处理 [7] 数据集生成与评估 - 使用ManiSkill模拟器生成数据,含CLEVR几何形状和Objaverse真实目标两类3D资产,应用图像增强与随机化 [9][10] - 真实评估采用DROID数据集子集(DROID-hard含干扰目标,DROID-easy测试泛化性),计算预测与真实位姿的L1误差 [11] - 消融实验显示深度信息显著提升模拟成功率,多样化3D资产对泛化至Objaverse场景至关重要 [12] 实验性能与推理优化 - 单样本模仿实验中,CLEVR-easy训练模型在模拟成功率达70%,而hard版本在真实数据表现更优(轨迹L1误差11.56) [16][17] - 输入图像裁剪策略改善小目标定位性能,多预测生成采用beam-search-NMS解码策略优于贪婪搜索(Top-1误差33.42) [18][20][23] - 提出使用平均精度(mAP)评估轨迹分布,设定L1距离阈值反映操作准确性 [23]