Workflow
大型视觉语言模型(VLM)
icon
搜索文档
微软&港科对比多种迁移技术!VLA 到底如何有效地继承 VLM 中丰富的视觉-语义先验?
具身智能之心· 2025-11-16 00:03
文章核心观点 - 微软研究院与香港科技大学等团队提出的GrinningFace基准,旨在解决视觉语言动作模型如何有效继承大型视觉语言模型中丰富视觉-语义先验的核心问题 [1] - 该基准通过表情符号桌面操作任务,构建了能分离动作技能与语义识别能力的纯净测试环境,以精准诊断知识迁移效果 [2][4] - 系统实验揭示了VLM先验对VLA泛化能力的关键作用,并指出共训练、潜态动作预测等技术是实现高效知识迁移的关键方向 [7][13][19] GrinningFace基准的设计与目的 - 基准创新性地选择在VLM预训练数据中普遍存在、但机器人数据集中几乎未出现的表情符号作为核心代理,以分离“机器人动作技能”与“VLM先验知识”的贡献 [2] - 任务要求机器人手臂根据语言指令将立方体放置到对应的表情符号卡片上,指令格式为“拿起立方体并放置在 [表情描述] 上” [4] - 基准包含100个训练集表情符号和100个验证集表情符号,确保评估模型的泛化能力 [8] 评估体系与关键指标 - 采用双维度评估体系,将成功率拆分为执行成功率和识别成功率进行单独量化 [5] - 执行成功率反映机器人成功抓取立方体并放置到任意表情卡的概率,用于衡量动作技能掌握程度 [8] - 识别成功率反映机器人选择正确目标表情卡的概率,直接体现VLM先验知识的迁移效果 [8] - 设计了三类测试场景,全面覆盖分布内与分布外泛化评估 [8] 不同微调策略的性能对比 - 全参数微调适配特定任务效果好,但易发生灾难性遗忘,丢失VLM先验知识 [5] - 仅微调动作头能最大程度保留VLM先验,但动作技能学习不足,分布内场景适配差 [5] - LoRA微调能平衡先验保留与动作学习,但知识迁移提升有限,仍有优化空间 [5] 高效知识迁移的关键技术方向 - 共训练技术在VLA训练中加入视觉语言任务,在真实机器人实验中识别成功率达86.7%(26/30) [7][11] - 潜态动作预测将潜态动作作为高阶训练目标,避免模型被低阶信号干扰,识别成功率达80%(24/30) [11][13] - VLM冻结加LoRA预训练能大幅提升识别成功率超过90%,但复杂动作技能适配速度慢 [13] 实验验证与核心发现 - 真实机器人实验与仿真环境结果高度一致,验证了结论的可靠性 [11] - 注意力图谱分析揭示了“VLM先验→预训练对齐→微调优化”的递进式迁移路径 [15] - VLM先验的保留程度直接决定VLA的泛化能力,灾难性遗忘是当前技术的主要瓶颈 [19] 未来研究方向 - 优化参数高效微调技术,提升LoRA等方法的知识迁移效率 [19] - 设计更贴合真实场景的复杂任务,验证迁移技术的规模化应用能力 [19] - 探索多模态先验融合,结合触觉、语音等信息增强VLA的环境适应能力 [19]
机器人操控新范式:一篇VLA模型系统性综述 | Jinqiu Select
锦秋集· 2025-09-02 21:41
文章核心观点 - 基于大型视觉语言模型(VLM)的视觉-语言-动作(VLA)模型是机器人操控领域的变革性范式,通过语义理解和推理能力显著提升机器人在非结构化环境中的泛化执行能力 [1][4][5] - 哈尔滨工业大学(深圳)团队首次提出系统性分类法,将VLA模型划分为单体模型(Monolithic Models)和层级模型(Hierarchical Models),以解决架构多样性和研究碎片化问题 [1][6][8] - VLA模型与强化学习、免训练优化、人类视频学习和世界模型等前沿技术结合,未来方向包括记忆机制、4D感知和多智能体协作等 [1][58][91] 背景与演进 - 传统机器人操控方法依赖预定义任务规范,在非结构化环境中泛化能力有限,而VLM通过海量图文预训练跨越视觉与语言的语义鸿沟 [4][9][11] - 现代VLM(如LLaVA1.5、Qwen-VL)采用三组件架构:视觉编码器、投影器和大型语言模型,统一处理多模态任务并支持高级推理能力 [9][10] - VLA模型将机器人动作处理为文本token,与语言输出联合训练,实现语义理解能力飞跃(如RT-2相比RT-1在未见过指令任务上成功率显著提升) [12][13] 单体模型(Monolithic Models) - 单系统架构(如RT系列、OpenVLA)统一处理视觉、语言和动作生成,通过自回归解码生成动作token,参数量达70亿级别 [14][17][18] - 双系统架构(如π0、CogACT)分离快速反应的动作专家与慢速推理的VLM骨干,通过级联或并行方式协作,推理速度提升3倍以上 [15][35][30] - 性能增强方向包括3D/4D感知(如SpatialVLA、TraceVLA)、多模态融合(触觉、音频)和推理优化(动态token剪枝、1-bit量化) [21][23][31] 层级模型(Hierarchical Models) - 规划器+策略架构明确解耦高层规划与底层执行,生成可解释中间输出(如关键点、程序代码),支持长时程任务 [43][44][53] - 仅规划器方法(如Chain-of-Modality)生成可执行程序或文本指令,而规划器+策略模型(如HiRobot)通过扩散策略执行原子命令 [44][49][53] - 基于关键点的方法(如HAMSTER、RoboPoint)预测交互区域或轨迹路点,结合优化器生成动作,在7个泛化轴向上成功率提升20% [45][51][80] 前沿领域结合 - 强化学习通过密集奖励信号(如VLA-RL的RPRM模型)和离线-在线混合训练(如ReWiND)解决长时任务稀疏奖励问题 [59][60][61] - 免训练方法(如FlashVLA、EfficientVLA)通过触发机制和token复用跳过冗余计算,实现最高5倍训练加速 [62][63][64] - 人类视频学习(如UniVLA、LAPA)对齐人类-机器人交互特征,世界模型集成(如WorldVLA)通过预测未来状态优化动作规划 [65][66][68] 模型特性 - 多模态融合通过共享嵌入空间实现视觉、语言和动作的token级对齐,支持深度、触觉等模态扩展(如PointVLA集成点云数据) [69][71][73] - 指令遵循能力支持语义锚定(如ChatVLA-2理解白板数学问题)和思维链推理(如CoT-VLA预测视觉子目标) [74][76][75] - 跨领域泛化能力显著,如DexVLA实现跨机器人形态技能迁移,π0.5在分布外数据上成功率超90% [78][79][80] 数据集与基准 - 真实世界数据集(如OXE)整合22个机器人平台超100万演示,覆盖500多种技能,但长尾分布数据仍不足 [82][83][84] - 仿真基准(如BEHAVIOR、ALFRED)支持多阶段语言指令任务,CALVIN提供无约束指令下的长时程行为学习 [85][86] - 人类行为数据集(如Ego4D、EPIC-Kitchens)提供829小时密集手部追踪视频,支持精细化操作学习 [87][88] 未来方向 - 需开发融合真实世界复杂性和长期任务评估的基准,包含子任务成功率和抗干扰性等指标 [91] - 技术突破重点包括4D感知(整合深度与时间演化)、移动操作(导航与抓取协同)和多智能体协作(共享世界模型) [93][94][96] - 模型效率优化需平衡计算资源与实时需求,通过动态token剪枝和硬件友好量化降低延迟 [98]
基于大型VLM的VLA模型如何改一步一步推动机器人操作任务的发展?
具身智能之心· 2025-08-26 08:03
文章核心观点 - 大型视觉语言模型VLM正推动机器人操作从预定义任务向开放世界自主执行转变 通过视觉语言动作VLA模型整合感知 语言理解和动作生成 使机器人能理解自然语言指令并在动态环境中执行复杂任务[3][4][16] - 哈尔滨工业大学深圳团队发布首篇系统综述 提出VLA模型的单体与分层二元分类体系 梳理技术发展 核心特征及数据集 并指出未来研究方向如记忆机制和3D4D感知升级[5][9][10][74] VLA模型架构分类 - 单体模型整合感知 语言理解和动作生成于单一或双系统架构 无显式中间表示 包括单系统模型统一输入并自回归解码输出动作 以及双系统模型分离高层推理与低层动作生成以平衡精度与实时性[19][20][30] - 分层模型显式分离规划与执行 通过人类可解释中间表示如子任务 关键点或程序连接规划器与策略器 分为仅规划器生成中间表示依赖现成策略器 以及规划器加策略器端到端优化规划与执行[19][21][41][48] 单体模型技术进展 - 经典自回归解码范式将连续动作离散化为token序列 VLM自回归生成后解令牌为可执行动作 如RT-2以PaLM-E/PaLI-X为骨干训练互联网与机器人数据 将动作视为语言任务提升语义理解与泛化性[23][24] - 模型性能增强通过扩展感知模态如3D点云 4D时空线索和触觉听觉 提升推理能力如引入思维链和分层闭环控制 以及优化泛化性如统一动作空间和可逆训练 代表技术包括Leo Agent处理点云和CoT-VLA预测子目标[25][26] - 推理效率优化从架构 参数和解码策略三方面降低开销 如RoboMamba采用Mamba架构达Transformer三倍速度 BitVLA用1-bit权重压缩模型 以及PD-VLA并行解码加速动作生成[28][29] 分层模型技术进展 - 仅规划器方法生成程序 关键点或子任务等中间表示 依赖现成策略器执行 如基于程序的Chain-of-Modality生成Python代码控制机器人 基于关键点的MoManipVLA预测路点优化轨迹 以及基于子任务的PaLM-E统一VQA与指令生成[42][43][45][47] - 规划器加策略器端到端优化规划与执行 基于关键点方法如HAMSTER预测轨迹关键点指导策略 基于子任务方法如HiRobot分解开放指令为原子命令后执行 代表技术还有DexVLA结合VLM规划器与扩散策略器处理长程任务[49][50][51][52] 其他先进技术领域 - 基于强化学习方法通过在线交互或离线轨迹优化VLA策略 解决奖励稀疏和样本效率问题 如VLA-RL训练过程奖励模型 ReWiND以目标进度为奖励 以及ConRFT结合离线与在线训练[54][55][63] - 无训练方法通过架构或计算优化提升效率 如FlashVLA稳定场景跳过解码 EfficientVLA剪枝冗余语言层和过滤视觉令牌 以及PD-VLA并行不动点迭代加速[56][57][58] - 从人类视频学习利用人类与机器人交互结构相似性迁移任务知识 如UniVLA从无标注视频学习任务中心潜在动作 LAPA用VQ-VAE量化动作预训练 以及3D-VLA融合视频提升3D推理[59][60] - 基于世界模型整合预测环境动态的紧凑表示 通过模拟未来状态优化动作规划 如WorldVLA联合预测视觉结果与生成动作 World4Omni生成子目标图像指导策略 以及V-JEPA 2-AC通过模拟潜在状态做规划[61][62] 核心特征与能力 - 多模态融合通过共享嵌入空间减少语义偏移 令牌级整合捕捉跨模态依赖 以及全面模态兼容性无缝整合点云 触觉和音频等新模态 代表技术包括PointVLA加入点云编码器和VTLA融合触觉输入[64] - 指令遵循依托语义理解与推理实现灵活响应 包括语义指令定位动态解读模糊指令 任务分解与协作拆分子目标 以及思维链推理预测未来视觉状态提升可靠性 如ChatVLA-2理解白板数学问题[65] - 多维度泛化实现跨任务 跨领域和跨载体适配 如DexVLA无需调优完成多样操作 π₀通过异构数据联合训练在家庭环境成功率超90% 以及HAMSTER在七个泛化维度成功率比OpenVLA高20%[65] 数据集与基准测试 - 真实世界数据集捕捉环境复杂性支持语言与动作对齐 如OXE整合22个机器人平台的100万+多模态演示 RH20T支持147项任务单样本学习 以及DROID含564项自然场景远程操作演示[66][67] - 模拟数据集提供可扩展安全训练环境 如BEHAVIOR支持杂乱家庭环境多步骤控制 CALVIN支持无约束语言指令长期操作 以及SIMPLER通过校准环境减少模拟到现实差距[67][68] - 人类行为数据集提供语义丰富交互先验 如Ego4D含3000小时第一视角视频 EPIC-Kitchens提供细粒度烹饪任务视频 以及EgoDex含829小时3D手部追踪视频[68][69] - 具身数据集聚焦规划与推理能力评估 如OpenEQA评估功能与常识推理 LoTa-Bench验证LLM生成规划可执行性 以及MT-EQA支持多目标推理[69][70] 未来研究方向 - 需优化数据集与基准测试 结合大规模真实数据采集与复杂任务套件 引入多维度评估指标解决现实差距与任务单一问题 并开发记忆机制与长期规划转向目标驱动连贯动作[74][75] - 技术升级包括3D与4D感知整合深度与时间动态信息 移动操作整合自适应策略 多智能体协作构建共享世界模型 开放世界终身学习设计增量知识积累 以及模型效率提升通过动态令牌修剪和量化[75]