视觉-语言-动作（VLA）模型 - 财报，业绩电话会，研报，新闻 - Reportify

视觉-语言-动作（VLA）模型

搜索文档

南洋理工大学提出NORA-1.5：一种基于世界模型与动作奖励的VLA模型

具身智能之心· 2025-11-21 08:04

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Chia-YuHung等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。南洋理工大学等研究单位提出NORA-1.5 通过集成流匹配动作专家与奖励驱动的直接偏好优化（DPO）后训练，解决了现有视觉-语言-动作（VLA）模型泛化性和可靠性不足的问题，在仿真与真实机器人场景中均实现了当前最优性能。核心定位与解决的关键问题架构设计：流匹配与 VLA backbone的协同优化 VLA backbone基础论文标题：NORA-1.5:AVision-Language-ActionModelTrainedusingWorldModel andAction-basedPreferenceRewards 论文链接：https://arxiv.org/pdf/2511.14659 ProjectPage :https://declare-lab.github.io/nora-1.5 Code ...

视觉-语言-动作（VLA）模型

视觉-语言-动作（VLA）模型

VLA集体翻车？复旦&创智邱锡鹏教授团队提出LIBERO-Plus，揭示VLA脆弱性真相

具身智能之心· 2025-10-29 08:03

研究背景与动机 - 当前视觉-语言-动作模型在LIBERO等基准测试中取得了接近完美的成功率，但其在真实多变环境下的稳定性和可靠性存疑 [2][4] - 高分模型可能仅仅是过拟合于理想的训练环境，而非真正具备多模态理解能力 [4] - 行业缺乏系统性评估模型在真实变化下泛化性能的基准 [4] 研究方法与框架 - 研究团队提出LIBERO-Plus基准，从物体摆放、相机视角、机器人初始姿态、语言指令、光照条件、背景贴图、传感器噪声七个维度对模型进行泛化性能测试 [4] - 该基准覆盖7大扰动维度、21项子类、5个难度等级，具备全面性和细粒度特性 [2][36] - 框架采用自动化方法大规模生成测试任务，并提出了“组合泛化差距”的概念以量化模型在组合扰动下的性能表现 [29][36] 主要研究发现 - 模型对扰动存在显著的整体脆弱性，在各维度扰动下性能均下降，尤其对相机视角与机器人初始状态的变化最为敏感 [13] - 在相机视角扰动下，部分模型性能急剧下降，例如UniVLA从原始95.2%的成功率降至4.3%，绝对下降90.9个百分点 [13] - 模型对语言指令的依赖度有限，在空白指令测试中部分模型性能基本保持不变，表明其行为更接近视觉-动作模型 [16] - 当语言指令中的目标对象被替换时，模型仍持续执行原始任务，表明其缺乏跨对象指令跟随的强泛化能力 [18][19] - 模型在组合扰动下表现出持续的负向组合差距，表明当前模型缺乏组合泛化能力 [31][32] 模型性能比较 - 在单维度扰动测试中，OpenVLA-OFT模型在无扰动时达到97.1%的成功率，但在相机视角扰动下性能降至59.7%，绝对下降37.4个百分点 [13] - 采用增强数据训练的模型在LIBERO-Plus基准上取得了79.6%的平均成功率，显著优于基线，在相机视角扰动上提升了37.2个百分点 [38] - 不同模型架构和训练范式对鲁棒性影响显著，融合第一人称腕部摄像头、强调数据多样性、协同训练的模型展现出更优的泛化能力 [17][38] 行业影响与建议 - 研究揭示了当前VLA模型在视觉理解、语言交互、组合泛化等方面的鲁棒性缺陷，表明高分数不等于真智能 [2][41] - 行业不应再盲目追求在静态基准上“刷榜”，而应关注模型在真实多变环境下的稳定性 [41] - LIBERO-Plus提供了实时更新的双榜单系统，包括鲁棒性排行榜和原始性能榜，邀请社区共同参与测试以丰富性能图谱 [39][40]

视觉-语言-动作（VLA）模型

组合泛化能力

视觉-语言-动作（VLA）模型

组合泛化能力

SFT 还是RL，VLA到底应该如何训练？

具身智能之心· 2025-10-28 08:02

研究核心观点 - 聚焦两篇具身强化学习与视觉-语言-动作模型的前沿工作，旨在解决VLA模型泛化能力不足及RL与VLA联合训练效率低下的问题，提出了创新的评测基准与高效训练框架 [2][3][10][15] 第一篇论文研究总结 - 论文系统探讨了强化学习对VLA模型泛化能力的促进作用，针对监督微调导致的误差累积与分布偏移问题，构建了覆盖视觉、语义与执行三大维度的泛化能力评测基准 [2] - 实验结果表明，采用PPO进行RL微调可显著提升语义理解与执行鲁棒性，同时保持与监督微调相当的视觉泛化表现 [2] - 研究发现PPO在VLA场景中整体优于源自大语言模型范式的DPO与GRPO方法，并基于此提出一套高效可复用的PPO训练方案，降低了大规模应用强化学习的门槛 [2] 第二篇论文研究总结 - RLinf-VLA是一个专用于VLA模型大规模强化学习训练的统一高效框架，针对仿训推一体化挑战提出全新解决方案，相比基线方法训练加速高达2.27倍 [3] - 框架通过统一接口无缝支持多种VLA架构、多种强化学习算法以及多种模拟器，其单一模型在130个LIBERO任务上达到了98.11%的成功率 [3] - 该框架还总结了一套将强化学习应用于VLA训练的最佳实践，具有重要的工程应用价值 [3] 研究团队与资源 - 研究团队核心成员来自清华大学交叉信息研究院，在强化学习与机器人学习领域拥有深厚的研究背景 [4][12][14] - 两篇研究论文及相关代码均已公开，便于行业参考与复现 [6][7]

强化学习（RL）

视觉-语言-动作（VLA）模型

监督微调（SFT）

强化学习（RL）

视觉-语言-动作（VLA）模型

监督微调（SFT）

你的VLA太慢了！？算力不够也能提速：这篇综述教你打造高效VLA新范式

具身智能之心· 2025-10-25 00:03

高效VLA模型的提出背景与核心价值 - 动作视觉语言模型是机器人理解环境与执行任务的核心框架，通过端到端映射实现通用指令执行和多任务操作 [3] - 当前主流VLA系统依赖体量庞大的视觉与语言模型，带来巨大的计算与存储开销，推理延迟高，难以满足真实机器人平台对实时性与能耗的严格要求 [3] - 效率问题已成为VLA从实验室研究向实际应用转化的关键瓶颈，该综述首次系统聚焦"效率"这一核心议题 [3] 高效VLA模型的四维度分类框架 - 高效架构设计：包括压缩骨干模型、动态计算路径和双系统架构设计三类主要方案 [16] - 高效感知特征：通过单帧特征选择性处理和跨时序特征复用两条路径优化视觉模态输入，视觉模态输入通常构成最长的Token序列，是VLA模型最主要的计算开销来源 [13][15] - 高效动作生成：分为直接输出低维连续动作向量和在动作前引入显式推理两类策略，动作是连接感知与执行的关键环节 [18][21] - 高效训练与推理：训练端重点降低模型适配成本，推理端聚焦突破自回归瓶颈实现并行化或混合解码 [22] 未来VLA模型的效率优化方向 - 模型数据协同精简：通过选择高价值样本、优化数据结构和控制数据流向，在有限算力下充分利用多模态信息 [25] - 高效时空感知信息：关注任务相关的三维压缩、关键帧和语义筛选策略，降低计算负担实现高效决策 [25] - 高效推理动作编码：通过层次化动作编码、跨动作段特征复用和轻量级在线规划，在保证动作连续性的前提下压缩输出序列 [25] - 高效强化学习策略：采用分阶段训练、离线微调与安全在线适应相结合的策略，复用多模态经验和优化奖励信号 [26] - 效率导向评测体系：建立以资源消耗、任务表现和可解释性为核心的评测体系，统一报告延迟、内存、能耗等指标 [26]

视觉-语言-动作（VLA）模型

高效VLA模型

高效VLA模型架构

高效VLA感知特征优化策略

高效VLA动作生成策略

视觉-语言-动作（VLA）模型

高效VLA模型

高效VLA模型架构

高效VLA感知特征优化策略

高效VLA动作生成策略

纯血VLA综述来啦！从VLM到扩散，再到强化学习方案

自动驾驶之心· 2025-10-01 00:04

文章核心观点 - 视觉-语言-动作模型代表了机器人学和具身智能领域的重要演进方向，旨在通过统一框架整合感知、语言理解和动作生成，以克服传统机器人系统在动态和非结构化环境中泛化能力不足的局限性 [1][10] - 该综述系统性地总结了纯VLA方法的研究现状，提出了基于动作生成策略的清晰分类体系，包括自回归、扩散、强化学习以及混合与特定领域方法四大范式，并梳理了相关的数据集、仿真平台和硬件资源 [7][9] - VLA模型的发展高度依赖高质量、大规模的多模态数据集和逼真的仿真器，资源如Open X-Embodiment整合了来自21个机构的22个机器人数据集，涵盖超过160,000个任务，显著加速了该领域的研究进程 [15] - 尽管VLA模型展现出通向通用具身智能的巨大潜力，但在可扩展性、泛化性、推理速度、安全性以及现实部署方面仍面临一系列关键挑战，未来的研究方向需要聚焦于数据局限性、效率优化和鲁棒性提升 [16][31][46] 背景介绍 - 传统机器人系统依赖于预编程指令、人工设计的控制策略或任务特定的强化学习方法，在受限环境中表现良好，但难以适应动态和非结构化环境 [10] - 从单模态建模到多模态整合是技术发展的自然轨迹，视觉Transformer和大语言模型等基础模型的突破为VLA模型的出现奠定了方法学和工程基础 [11][12] - VLA模型通过提供一个统一框架，将语言与感知相结合并直接映射为可执行的动作序列，从而闭合感知-语言-动作的循环，是迈向通用具身智能的重要一步 [10][13] - 通用具身智能的实现不仅依赖于认知处理，还需要物理身体、环境感知与反馈机制的协同，VLA模型正朝着这一愿景演进，并展现出在多样化机器人平台上执行广泛任务的潜力 [16] VLA方法分类：自回归范式 - 自回归范式是VLA研究中经典而有效的序列生成方法，通过将动作序列视为时间相关过程，在给定上下文条件下逐步生成动作token，其代表性模型包括Gato、RT-1/RT-2和PaLM-E等 [18][21] - 该类方法的关键创新方向包括通用型智能体构建、与大语言模型结合的语义规划与推理能力增强、轨迹生成与视觉对齐建模，以及旨在提升实时控制效率的结构优化与高效推理机制 [21][23][26][29] - 自回归模型通过在可扩展的Transformer架构中统一多模态感知、语言推理与序列化动作生成，推动了通用智能体的发展，但其局限性在于误差累积、推理时延以及对大规模计算和数据资源的高需求 [31] VLA方法分类：扩散范式 - 扩散模型将机器人控制重新表述为概率生成问题，通过条件去噪过程生成多样化的合理动作轨迹，在几何一致性、多任务泛化和自然语言接口方面展现出优势 [32][36] - 该范式的核心维度包括基础的动作生成建模、与Transformer结合的多模态架构融合，以及面向实际应用场景的优化与部署策略，代表性工作有Diffusion Policy、Dita和TinyVLA等 [34][37][39] - 扩散式VLA的研究正从实验室原型向真实世界部署过渡，趋势是结合轻量化设计、认知启发式架构和运行时鲁棒性机制，以平衡性能、效率与安全性，但其在动态环境中保持时间一致性方面仍较脆弱 [39][43][46] VLA方法分类：强化学习范式 - 基于强化学习的VLA方法通过引入视觉与语言信号来生成可迁移的奖励代理，并结合离线与在线学习策略以稳定策略优化，提升了在交互式动态环境中的决策能力 [48][51] - 该类方法已成功应用于机械臂操作、四足机器人导航、人形机器人全身控制以及自动驾驶等多个领域，例如SafeVLA引入了安全约束机制，NaVILA和LeVERB则针对特定机器人形态进行了适配 [49][50][52] - 强化学习微调策略增强了VLA模型的泛化能力和安全性，但其挑战在于奖励工程可能依赖噪声信号、训练稳定性问题以及在高维真实环境中部署时的高计算开销 [53] VLA方法分类：混合与特定领域方法 - 混合架构通过策略性地结合自回归、扩散和强化学习等多种范式，以发挥各自在连续动作生成、离散推理和环境适应性方面的互补优势，例如HybridVLA统一了扩散轨迹生成和自回归推理 [56][57] - 高级多模态融合研究从简单的特征拼接转向显式建模几何约束、空间关系和物体可供性，例如CLIPort和3D-VLA等工作显著提升了VLA模型在复杂3D场景中的空间落地性和动作生成可靠性 [58][59] - VLA框架展现出强大的领域适配性，已被扩展至自动驾驶、人形机器人控制、图形用户界面交互乃至安全关键系统等特定场景，这验证了其核心原则的普适性，但也带来了过拟合和领域特定挑战 [60][61][67] 数据集与基准测试 - VLA模型的发展极度依赖于高质量、大规模的多模态数据集，这些资源可分为真实世界采集和仿真环境生成两大类，例如Open X-Embodiment数据集整合了超过100万条轨迹，覆盖160,266项技能 [70][71] - 真实世界数据集如BridgeData、RT-1和RH20T等，提供了多模态观测与语言指令对齐的交互数据，但由于采集成本高昂，其规模性和任务多样性仍面临限制 [72][74] - 仿真平台如MuJoCo、Isaac Gym和CARLA等，提供了可扩展的虚拟环境，能够生成包含动作轨迹、物体状态和自然语言指令的多模态标注数据，有效缓解了真实机器人数据稀缺性问题，加速了模型训练与评估 [15][71]

视觉-语言-动作（VLA）模型

通用具身智能

自回归范式

强化学习范式

视觉-语言-动作（VLA）模型

通用具身智能

自回归范式

强化学习范式

纯血VLA综述来啦！从VLM到扩散，再到强化学习方案

具身智能之心· 2025-09-30 12:00

视觉-语言-动作模型综述的核心观点 - 该综述系统性地总结了纯视觉-语言-动作方法的研究现状，旨在填补现有综述在纯VLA方法上的空白，并提出清晰的分类体系以阐明该领域的演进轨迹 [4][8] - VLA模型通过提供统一框架将视觉感知、语言理解和可执行动作相结合，标志着通用具身智能发展的重要一步，其目标是克服传统机器人系统在动态和非结构化环境下泛化能力差的问题 [11][14] - 该领域正从单一生成范式向混合架构演进，结合自回归、扩散和强化学习等多种范式的优势，以应对复杂任务，并朝着更高效、安全且易于部署的通用机器人系统发展 [18][56][57] 背景与发展脉络 - VLA模型的发展建立在单模态建模突破的基础上，早期LLM/VLM基础模型如Transformer架构和对比学习方法为多模态整合奠定了方法学基础 [12][13] - 从LLM/VLM到VLA模型的演进体现在将图像、指令和机器人状态统一编码为token，并通过自回归生成动作序列，从而在单一序列建模框架下实现感知-语言-动作的闭环 [14] - VLA模型被视为实现通用具身智能的关键前沿，其通过结合视觉编码器、大语言模型和强化学习的决策能力，展现出弥合“感知-理解-行动”鸿沟的重要潜力 [17] VLA方法学范式自回归范式 - 自回归模型通过将动作序列视为时间相关过程，在Transformer架构中统一多模态感知和动作生成，支持跨任务泛化的通用代理，代表性工作包括Gato、RT-1/RT-2和PaLM-E [19][21] - 该范式通过引入LLM实现语义规划和分层推理，增强了长时任务和复杂指令的处理能力，但面临误差累积、多模态对齐脆弱以及高计算成本等限制 [24][26][32] - 结构优化方向聚焦于降低计算冗余和提升实时性，采用层级分解、自适应推理和轻量化压缩等策略，以改善部署效率 [30][31] 扩散范式 - 扩散模型将机器人控制重新表述为概率生成问题，通过条件去噪过程支持多样化的动作分布生成，在几何一致性（如SE(3)约束）和视频生成式规划方面展现出优势 [33][37] - 多模态架构融合趋势将Transformer与扩散模型结合，实现异质模态的统一表征，并引入显式推理模块和领域专用设计（如力觉感知）以提升性能 [38][39] - 应用优化方向通过轻量化设计（如TinyVLA）、认知启发式架构和运行时鲁棒性机制，推动模型从实验室原型向真实世界部署过渡 [40][42][44] 强化学习范式 - 强化学习微调策略通过视觉和语言信号生成可迁移的奖励代理，结合离线行为克隆和在线强化学习稳定策略优化，并扩展至四足机器人、人形机器人和自动驾驶等场景 [48][51][53] - 安全导向方法如SafeVLA引入约束学习对齐机制，在开放环境中防止高风险动作，但奖励工程的噪声信号和训练稳定性仍是挑战 [50][54] - 效率优化策略采用量化、剪枝和知识蒸馏等技术，在保持任务成功率的同时降低内存使用和提升推理速度 [53] 混合与专用方法 - 混合架构整合自回归、扩散和强化学习等多种范式，以兼顾推理精度与动作生成的物理一致性，代表性工作如HybridVLA在单一框架中结合扩散轨迹和自回归推理 [56][57] - 高级多模态融合强调3D空间理解和显式几何约束建模，从早期2D特征拼接转向模块化、具3D意识的架构，以提升在非结构化环境中的操作可靠性 [59][60] - 领域适配将VLA原则扩展至自动驾驶、人形机器人控制和GUI交互等特定场景，通过专用数据集（如CoVLA）和层级化设计解决领域独特挑战 [61][62] 数据集与仿真资源 - 高质量数据集是VLA模型发展的基石，真实世界数据集如Open X-Embodiment整合了来自21个机构的22个机器人数据集，覆盖527种技能和160,266个任务，显著提升了模型的泛化能力 [16][71][76] - 仿真数据集通过虚拟环境生成大规模标注数据，支持可扩展训练和安全测试，代表性平台包括THOR、Habitat和CARLA，它们提供了多样化的交互场景和传感器配置 [16][80][81] - 基准评测常用成功率、语言跟随率和轨迹误差等指标，并通过迁移到未见环境评估模型的鲁棒性，仿真基准如VIMA-BENCH和CALVIN设计了多级协议以系统化测试泛化能力 [76][79][82]

视觉-语言-动作（VLA）模型

大语言模型（LLMs）

视觉语言模型（VLMs）

自回归范式

视觉-语言-动作（VLA）模型

大语言模型（LLMs）

视觉语言模型（VLMs）

自回归范式

AnywhereVLA：在消费级硬件上实时运行VLA

具身智能之心· 2025-09-29 10:08

核心观点 - AnywhereVLA提出了一种模块化架构，旨在融合经典导航的鲁棒性与视觉语言动作模型的语义理解能力，以解决在未知大型室内环境中执行语言驱动拾取-放置任务的技术瓶颈 [3] - 该方案设计可在消费级硬件上实时运行，针对家庭服务、零售自动化、仓储物流等开放、非结构化场景 [3] 相关工作回顾：现有方案的优势与不足 - 通用视觉语言动作模型缺乏空间感知能力，难以应对大型环境 [4] - 视觉语言导航方案需预先知晓目标物体的环境位置，在动态或未探索场景中不实用 [4] - 经典导航框架缺乏语言理解与语义推理能力，无法执行语言驱动的目标导向任务 [4] - 轻量化视觉语言动作模型泛化能力仅局限于操作领域，缺乏环境探索能力 [5] - 结合视觉语言导航与SLAM的方案在185平方米环境中需10-15分钟完成探索，效率低下 [5] AnywhereVLA架构：四大核心模块与工作流 - 工作流逻辑为语言指令解析，同步指导视觉语言动作操作与主动探索，构建3D语义地图，通过前沿探索定位目标，由趋近模块导航至预抓取位姿，最后视觉语言动作执行操作 [7] - 带置信度的3D语义地图模块核心功能是融合多传感器数据，构建含目标类别、几何信息与置信度的语义点云地图 [7] - 主动环境探索模块基于“前沿探索”策略，结合语言指令中的目标类别定位目标物体 [11] - 趋近模块核心是计算机械臂可操作的安全基座位姿，确保后续视觉语言动作操作能稳定执行 [12] - 视觉语言动作操作模块基于微调后的SmolVLA模型，将视觉上下文与语言子目标转化为机械臂的抓取/放置动作 [12] VLA模型微调与硬件平台 - 模型微调使用NVIDIA RTX 4090，数据集为50个SO-101机械臂的拾取-放置片段 [15] - 训练参数包括批量大小16，余弦衰减学习率调度器，AdamW优化器 [15] - HermesBot移动操作平台专为AnywhereVLA设计，平衡传感与计算能力 [16] - 计算硬件分配中，SLAM模块处理频率10赫兹，处理时间25毫秒；语义地图模块处理频率2赫兹，处理时间45毫秒；视觉语言动作模块处理频率5赫兹，处理时间20毫秒 [16] 实验结果：性能与有效性验证 - 在未知多房间实验室中执行50次拾取-放置任务，整体成功率为46% [17][22] - 微调后的SmolVLA操作模块成功率达85%，未微调时整体成功率仅10% [22] - 各模块单独成功率分别为：SLAM 100%，主动环境探索 75%，目标检测 90%，导航 80%，视觉语言动作操作 85% [22] - 探索半径为5米时，平均任务完成时间小于133秒；探索半径为10米时，完成时间小于10分钟 [23]

视觉-语言-动作（VLA）模型

视觉-语言导航（VLN）

视觉-语言-动作（VLA）模型

视觉-语言导航（VLN）

从300多篇工作中，看VLA在不同场景下的应用和实现......

具身智能之心· 2025-09-25 12:00

文章核心观点 - 视觉-语言-动作模型是机器人技术从传统控制向通用机器人技术范式转变的关键标志，将视觉-语言模型从被动序列生成器重新定位为在复杂动态环境中执行操作的主动智能体[2] - 该综述基于300多项最新研究，首次对纯VLA方法进行系统全面总结，提出清晰分类体系并分析五类范式的设计动机、核心策略与实现方式[2][3][7] - VLA模型通过整合视觉编码器表征能力、大语言模型推理能力和强化学习决策能力，有望弥合"感知-理解-动作"鸿沟，成为实现通用具身智能的核心路径[15][20][21] VLA模型技术背景与发展历程 - 单模态建模突破为多模态融合奠定基础：计算机视觉领域从CNN到ViT的演进，自然语言处理领域Transformer架构催生大语言模型，强化学习领域从DQN到决策Transformer形成序列决策新视角[13] - 视觉-语言模型作为关键桥梁经历从模态对齐到复杂跨模态理解发展：早期对齐模型如ViLBERT、对比学习模型如CLIP、指令微调模型如BLIP-2和LLaVA[16] - VLA模型核心设计思路包括模态token化和自回归动作生成，实现端到端跨模态对齐并继承VLMs语义泛化能力[15][17] VLA模型主要方法范式自回归模型 - 通用VLA方法发展经历三个阶段：早期统一token化如Gato、大规模真实数据训练如RT-1和RT-2、跨平台泛化与效率优化如Octo和NORA[26][27] - 基于大语言模型的推理与语义规划使VLA从"被动输入解析器"转变为"语义中介"，支持长任务和组合任务的推理驱动控制[29][33] - 结构优化与高效推理机制包括分层模块化优化、动态自适应推理、轻量化压缩与并行化，如MoLe-VLA降低40%计算成本[35][36] 扩散模型 - 通用方法实现从确定性动作到概率性多轨迹生成转变：几何感知生成如SE(3)-DiffusionFields、视频驱动生成如UPDP、时间一致性优化如TUDP[37][40][44] - 多模态架构融合趋势明显：大规模扩散Transformer如Dita、多模态token对齐如M-DiT、推理与扩散结合如Diffusion-VLA[41][45] - 应用优化部署呈现三大趋势：效率优化如TinyVLA仅需5%可训练参数、任务适应性如DexVLG支持零样本灵巧抓取、认知启发架构如TriVLA实现36Hz交互频率[42][46] 强化学习微调模型 - 聚焦奖励设计、策略优化和跨任务迁移：自监督奖励与表征学习如VIP生成密集奖励函数、跨模态奖励代理与人类反馈如SafeVLA引入安全约束机制[48][49] - 实现跨机器人形态适配：四足机器人如NaVILA、人形机器人如LeVERB、自动驾驶如AutoVLA通过链推理微调生成离散可行动作[49][50] - 融合离线与在线强化学习：ConRFT结合离线行为克隆与在线一致性目标，平衡样本效率与策略安全性[49] 数据集与仿真平台支撑 - 真实世界数据集规模显著扩大：Open X-Embodiment整合21个机构22个机器人数据集，包含527项技能和160266个任务，通过标准化格式促进研究可复现性[18][64] - 仿真平台解决数据稀缺和实机测试风险：多样化环境与物理真实性支持，如MuJoCo/Isaac Gym适用于动力学仿真，CARLA面向自动驾驶场景[18][19] - 基准测试评估指标以成功率为主，自动驾驶领域增加L2距离和完成率等专用指标，仿真领域开发交互式导航评分等新指标[65][67][70] 技术挑战与未来方向 - 面临可扩展性、泛化性、安全性三大核心挑战：现有模型难以适应大规模真实场景，在未知场景中准确性下降，实机部署存在安全隐患[21][25] - 数据局限性突出：标注成本高，长尾场景覆盖不足，真实世界数据采集受硬件设备和精准操控限制[18][62][73] - 未来需突破仿真到现实差距，解决多模态对齐稳定性问题，开发更丰富评估协议匹配真实世界自主系统需求[21][73]

视觉-语言-动作（VLA）模型

通用具身智能

自回归模型

强化学习微调模型

视觉-语言-动作（VLA）模型

通用具身智能

自回归模型

强化学习微调模型

深度综述 | 300+论文带你看懂：纯视觉如何将VLA推向自动驾驶和具身智能巅峰！

自动驾驶之心· 2025-09-25 07:33

文章核心观点 - 视觉-语言-动作模型代表了机器人技术从传统控制向通用机器人技术的范式转变，将视觉-语言模型从被动生成器转变为能在复杂环境中决策的主动智能体 [1] - 该综述综合了300多项最新研究，对VLA方法进行了系统分类，并探讨了其应用、关键挑战及未来发展方向 [1] - VLA模型通过整合视觉编码器、大型语言模型和强化学习的优势，旨在弥合“感知-理解-动作”的鸿沟，成为实现通用具身智能的核心路径 [16][23] VLA模型的核心范式与分类 - VLA方法被划分为五大范式：自回归模型、扩散模型、强化学习模型、混合方法及专用方法 [1][24] - 自回归模型通过Transformer架构统一多模态感知和序列动作生成，支持跨任务泛化，但存在误差累积和延迟问题 [26][39] - 扩散模型将机器人控制从确定性回归转变为概率性生成，支持从同一观测生成多种有效轨迹，但在动态环境中的轨迹稳定性仍需改进 [41][43] - 强化学习微调模型通过融合视觉-语言基础模型与RL算法，增强VLA的感知和决策能力，擅长结合人类反馈和适应新任务 [48][51] VLA模型的技术演进与关键创新 - VLA模型的发展经历了从单模态基础模型到多模态融合，再到“多模态+可执行控制”的演进路径 [16] - 关键技术创新包括模态token化、自回归动作生成、以及将视觉、语言、状态和动作统一在单一序列建模框架中 [20][30] - 代表性模型如Gato实现了异质模态的统一token化，RT-1基于13万条真实世界数据训练，RT-2融入了网络级VLM知识 [30] - 扩散模型领域的创新包括SE(3)-DiffusionFields将扩散扩展到SE(3)位姿空间，以及Dita构建的可扩展扩散Transformer [42][45] VLA模型的应用场景与机器人形态 - VLA模型已应用于多种机器人形态，包括机械臂、四足机器人、人形机器人和轮式机器人 [7] - 在自动驾驶领域，VLA模型用于轨迹生成和危险规避，CoVLA构建了包含5万条语言指令-轨迹对的大规模数据集 [55] - 专用领域适配包括GUI交互、人形全身控制以及特殊任务如魔方还原，展现了VLA的通用性 [55][57] - 人形机器人控制通过分层VLA框架实现，如LeVERB将视觉-语言处理与动力学级动作处理耦合，支持150+任务的仿真到现实迁移 [55] 数据集与仿真平台的支撑作用 - VLA模型的发展高度依赖高质量数据集和仿真平台，以解决数据稀缺和实机测试风险高的问题 [17] - 真实世界数据集如BridgeData涵盖10个环境中的71项任务，Open X-Embodiment整合了22个机器人数据集，包含160266个任务 [21][65] - 仿真平台如MuJoCo/Isaac Gym提供精确的物理仿真，CARLA面向自动驾驶提供真实城市交通场景，支持安全高效的大规模训练 [21] - 评估指标通常采用成功率、语言遵循率、L2距离和完成率等，以衡量模型的性能、鲁棒性和泛化能力 [66][68][74] VLA模型面临的挑战与未来方向 - 关键挑战包括可扩展性不足、在未知场景中的泛化性下降、实机部署的安全性风险以及仿真到现实的差距 [23][29] - 未来研究方向需解决数据局限性、推理速度、安全性以及长尾场景覆盖不足等问题，以加速通用机器人技术的发展 [7][23] - 效率优化和轻量化设计成为趋势，如MoLe-VLA通过混合专家路由降低40%计算成本，BitVLA采用1位量化将内存占用降至30% [36][55] - 安全机制和可解释性研究受到重视，SafeVLA引入安全评论网络和约束策略优化框架，以降低开放环境中的风险事件 [51][57]

视觉-语言-动作（VLA）模型

通用具身智能

强化学习微调模型

混合架构与多范式融合

基础模型与大规模训练

视觉-语言-动作（VLA）模型

通用具身智能

强化学习微调模型

混合架构与多范式融合

基础模型与大规模训练

清华联手理想提出LightVLA：剪掉冗余token，推理速度提升38%！

具身智能之心· 2025-09-18 08:03

研究背景与核心挑战 - 视觉-语言-动作（VLA）模型是机器人具身智能的核心技术，能将视觉信息和语言指令直接转化为可执行的机器人动作，在复杂操作（如物体抓取、长程规划）中展现出强大能力 [2] - 这类模型存在关键瓶颈：视觉Token的计算冗余，VLA模型通常需要处理数百个视觉Token（如OpenVLA-OFT使用512个），而注意力机制的计算复杂度随Token数量呈平方增长，导致模型在边缘设备（如家用机器人、自动驾驶）上难以实现实时部署 [2] 现有优化方案的局限 - 效率与性能的trade-off：多数Token剪枝方法（如EfficientVLA、VLA-Cache）为提升效率会固定保留Token数量，导致关键语义信息丢失，最终牺牲性能 [3] - VLM剪枝方案不兼容：视觉-语言（VL）模型的剪枝方法（如SparseVLM、FastV）聚焦全局语义，而VLA模型需关注局部语义（如机械臂交互的物体），直接迁移会导致性能骤降 [3] - 部署兼容性差：基于注意力分数的剪枝方法（如SP-VLA、FlashVLA）依赖LLM的中间注意力输出，无法适配vLLM、SGLang等主流推理框架，难以落地 [3] LightVLA框架设计 - 核心逻辑是让模型通过微调自主学习筛选任务相关的视觉Token，而非依赖人工设定的剪枝比例 [4] - 设计围绕VLA模型的三模块结构（视觉编码器、LLM backbone、action head）展开，仅针对视觉Token进行剪枝（保留[CLS]Token以维持全局信息） [4] - 整体流程分为查询生成-Token评分-Token选择三阶段 [4] 查询生成阶段 - 通过视觉Token与语言Token的交叉注意力生成查询，公式为 $$Q=s o f t m a x\left({\frac{H_{v}H_{l}^{T}}{\sqrt{D}}}\right)H_{l}$$ [7] - 这一设计的核心逻辑是视觉Token的有用性由其与指令的关联性决定，且无需额外训练参数，避免增加模型复杂度 [7] Token评分阶段 - 每个查询会对所有视觉Token进行有用性评分，本质是计算查询与视觉Token的相似度，公式为 $$S={\frac{Q H_{v}^{T}}{\sqrt{D}}}$$ [10] - 评分越高说明该Token与任务的关联性越强 [10] Token选择阶段 - 采用改进版Gumbel-softmax解决传统argmax操作不可微的问题，让剪枝过程可端到端训练 [11] - 注入Gumbel噪声：为评分矩阵添加均匀分布噪声，噪声上限随训练迭代逐渐衰减 [11] - 软评分与硬选择结合：通过硬选择+软评分-停止梯度的软评分实现可微性 [12] - 推理阶段无需注入噪声，直接通过argmax选择Token，确保高效部署 [13] 实验验证结果 - 在LIBERO基准数据集上验证性能，平均成功率97.4%，较基础模型OpenVLA-OFT（94.5%）提升2.9% [16] - 在长程任务（LIBERO-Long）上成功率94.6%，远超同类剪枝方法（如SP-VLA 51.4%、VLA-Cache 52.8%） [16] - 平均仅保留78个视觉Token（仅为OpenVLA-OFT的15.2%），证明视觉Token中存在大量冗余 [16] - 计算量（FLOPs）降低59.1%，延迟降低38.2% [18] - 对比基础模型OpenVLA-OFT：虽成功率94.5%，但需处理512个Token，计算量是LightVLA的2.4倍 [18] 消融实验 - 噪声衰减的作用：无噪声或固定噪声的变体，平均成功率均降至97.0%，且固定噪声变体保留Token数增至112个 [20] - Token筛选的准确性：对筛选后的Token进行加随机Token（2k）或减10%Token（0.9k），成功率均下降（96.8%/96.6%） [20] LightVLA*变体 - 引入额外可训练参数（查询头），通过可学习查询引导Token筛选 [22] - 设计了两种部署位置：视觉编码器后剪枝和LLM早期层剪枝 [22] - 平均成功率达96.2%-97.0%，略低于LightVLA（97.4%） [23] - LLM早期层剪枝在长程任务（Long）上表现更优（94.8%），说明语言语义能进一步引导Token筛选 [23] 与MoE技术的差异 - 目标差异：LightVLA以提升任务性能为核心，筛选与任务强相关的视觉Token；MoE以均衡专家负载为核心，将任务分配给不同专家 [28] - 行为差异：LightVLA的Token选择是性能驱动的非均匀筛选（关键物体Token被优先保留）；MoE的专家选择是负载驱动的均匀分配 [28]

视觉-语言-动作（VLA）模型

Artificial Intelligence

视觉-语言-动作（VLA）模型

Artificial Intelligence