Workflow
自回归范式
icon
搜索文档
纯血VLA综述来啦!从VLM到扩散,再到强化学习方案
自动驾驶之心· 2025-10-01 00:04
文章核心观点 - 视觉-语言-动作模型代表了机器人学和具身智能领域的重要演进方向,旨在通过统一框架整合感知、语言理解和动作生成,以克服传统机器人系统在动态和非结构化环境中泛化能力不足的局限性 [1][10] - 该综述系统性地总结了纯VLA方法的研究现状,提出了基于动作生成策略的清晰分类体系,包括自回归、扩散、强化学习以及混合与特定领域方法四大范式,并梳理了相关的数据集、仿真平台和硬件资源 [7][9] - VLA模型的发展高度依赖高质量、大规模的多模态数据集和逼真的仿真器,资源如Open X-Embodiment整合了来自21个机构的22个机器人数据集,涵盖超过160,000个任务,显著加速了该领域的研究进程 [15] - 尽管VLA模型展现出通向通用具身智能的巨大潜力,但在可扩展性、泛化性、推理速度、安全性以及现实部署方面仍面临一系列关键挑战,未来的研究方向需要聚焦于数据局限性、效率优化和鲁棒性提升 [16][31][46] 背景介绍 - 传统机器人系统依赖于预编程指令、人工设计的控制策略或任务特定的强化学习方法,在受限环境中表现良好,但难以适应动态和非结构化环境 [10] - 从单模态建模到多模态整合是技术发展的自然轨迹,视觉Transformer和大语言模型等基础模型的突破为VLA模型的出现奠定了方法学和工程基础 [11][12] - VLA模型通过提供一个统一框架,将语言与感知相结合并直接映射为可执行的动作序列,从而闭合感知-语言-动作的循环,是迈向通用具身智能的重要一步 [10][13] - 通用具身智能的实现不仅依赖于认知处理,还需要物理身体、环境感知与反馈机制的协同,VLA模型正朝着这一愿景演进,并展现出在多样化机器人平台上执行广泛任务的潜力 [16] VLA方法分类:自回归范式 - 自回归范式是VLA研究中经典而有效的序列生成方法,通过将动作序列视为时间相关过程,在给定上下文条件下逐步生成动作token,其代表性模型包括Gato、RT-1/RT-2和PaLM-E等 [18][21] - 该类方法的关键创新方向包括通用型智能体构建、与大语言模型结合的语义规划与推理能力增强、轨迹生成与视觉对齐建模,以及旨在提升实时控制效率的结构优化与高效推理机制 [21][23][26][29] - 自回归模型通过在可扩展的Transformer架构中统一多模态感知、语言推理与序列化动作生成,推动了通用智能体的发展,但其局限性在于误差累积、推理时延以及对大规模计算和数据资源的高需求 [31] VLA方法分类:扩散范式 - 扩散模型将机器人控制重新表述为概率生成问题,通过条件去噪过程生成多样化的合理动作轨迹,在几何一致性、多任务泛化和自然语言接口方面展现出优势 [32][36] - 该范式的核心维度包括基础的动作生成建模、与Transformer结合的多模态架构融合,以及面向实际应用场景的优化与部署策略,代表性工作有Diffusion Policy、Dita和TinyVLA等 [34][37][39] - 扩散式VLA的研究正从实验室原型向真实世界部署过渡,趋势是结合轻量化设计、认知启发式架构和运行时鲁棒性机制,以平衡性能、效率与安全性,但其在动态环境中保持时间一致性方面仍较脆弱 [39][43][46] VLA方法分类:强化学习范式 - 基于强化学习的VLA方法通过引入视觉与语言信号来生成可迁移的奖励代理,并结合离线与在线学习策略以稳定策略优化,提升了在交互式动态环境中的决策能力 [48][51] - 该类方法已成功应用于机械臂操作、四足机器人导航、人形机器人全身控制以及自动驾驶等多个领域,例如SafeVLA引入了安全约束机制,NaVILA和LeVERB则针对特定机器人形态进行了适配 [49][50][52] - 强化学习微调策略增强了VLA模型的泛化能力和安全性,但其挑战在于奖励工程可能依赖噪声信号、训练稳定性问题以及在高维真实环境中部署时的高计算开销 [53] VLA方法分类:混合与特定领域方法 - 混合架构通过策略性地结合自回归、扩散和强化学习等多种范式,以发挥各自在连续动作生成、离散推理和环境适应性方面的互补优势,例如HybridVLA统一了扩散轨迹生成和自回归推理 [56][57] - 高级多模态融合研究从简单的特征拼接转向显式建模几何约束、空间关系和物体可供性,例如CLIPort和3D-VLA等工作显著提升了VLA模型在复杂3D场景中的空间落地性和动作生成可靠性 [58][59] - VLA框架展现出强大的领域适配性,已被扩展至自动驾驶、人形机器人控制、图形用户界面交互乃至安全关键系统等特定场景,这验证了其核心原则的普适性,但也带来了过拟合和领域特定挑战 [60][61][67] 数据集与基准测试 - VLA模型的发展极度依赖于高质量、大规模的多模态数据集,这些资源可分为真实世界采集和仿真环境生成两大类,例如Open X-Embodiment数据集整合了超过100万条轨迹,覆盖160,266项技能 [70][71] - 真实世界数据集如BridgeData、RT-1和RH20T等,提供了多模态观测与语言指令对齐的交互数据,但由于采集成本高昂,其规模性和任务多样性仍面临限制 [72][74] - 仿真平台如MuJoCo、Isaac Gym和CARLA等,提供了可扩展的虚拟环境,能够生成包含动作轨迹、物体状态和自然语言指令的多模态标注数据,有效缓解了真实机器人数据稀缺性问题,加速了模型训练与评估 [15][71]
纯血VLA综述来啦!从VLM到扩散,再到强化学习方案
具身智能之心· 2025-09-30 12:00
视觉-语言-动作模型综述的核心观点 - 该综述系统性地总结了纯视觉-语言-动作方法的研究现状,旨在填补现有综述在纯VLA方法上的空白,并提出清晰的分类体系以阐明该领域的演进轨迹 [4][8] - VLA模型通过提供统一框架将视觉感知、语言理解和可执行动作相结合,标志着通用具身智能发展的重要一步,其目标是克服传统机器人系统在动态和非结构化环境下泛化能力差的问题 [11][14] - 该领域正从单一生成范式向混合架构演进,结合自回归、扩散和强化学习等多种范式的优势,以应对复杂任务,并朝着更高效、安全且易于部署的通用机器人系统发展 [18][56][57] 背景与发展脉络 - VLA模型的发展建立在单模态建模突破的基础上,早期LLM/VLM基础模型如Transformer架构和对比学习方法为多模态整合奠定了方法学基础 [12][13] - 从LLM/VLM到VLA模型的演进体现在将图像、指令和机器人状态统一编码为token,并通过自回归生成动作序列,从而在单一序列建模框架下实现感知-语言-动作的闭环 [14] - VLA模型被视为实现通用具身智能的关键前沿,其通过结合视觉编码器、大语言模型和强化学习的决策能力,展现出弥合“感知-理解-行动”鸿沟的重要潜力 [17] VLA方法学范式 自回归范式 - 自回归模型通过将动作序列视为时间相关过程,在Transformer架构中统一多模态感知和动作生成,支持跨任务泛化的通用代理,代表性工作包括Gato、RT-1/RT-2和PaLM-E [19][21] - 该范式通过引入LLM实现语义规划和分层推理,增强了长时任务和复杂指令的处理能力,但面临误差累积、多模态对齐脆弱以及高计算成本等限制 [24][26][32] - 结构优化方向聚焦于降低计算冗余和提升实时性,采用层级分解、自适应推理和轻量化压缩等策略,以改善部署效率 [30][31] 扩散范式 - 扩散模型将机器人控制重新表述为概率生成问题,通过条件去噪过程支持多样化的动作分布生成,在几何一致性(如SE(3)约束)和视频生成式规划方面展现出优势 [33][37] - 多模态架构融合趋势将Transformer与扩散模型结合,实现异质模态的统一表征,并引入显式推理模块和领域专用设计(如力觉感知)以提升性能 [38][39] - 应用优化方向通过轻量化设计(如TinyVLA)、认知启发式架构和运行时鲁棒性机制,推动模型从实验室原型向真实世界部署过渡 [40][42][44] 强化学习范式 - 强化学习微调策略通过视觉和语言信号生成可迁移的奖励代理,结合离线行为克隆和在线强化学习稳定策略优化,并扩展至四足机器人、人形机器人和自动驾驶等场景 [48][51][53] - 安全导向方法如SafeVLA引入约束学习对齐机制,在开放环境中防止高风险动作,但奖励工程的噪声信号和训练稳定性仍是挑战 [50][54] - 效率优化策略采用量化、剪枝和知识蒸馏等技术,在保持任务成功率的同时降低内存使用和提升推理速度 [53] 混合与专用方法 - 混合架构整合自回归、扩散和强化学习等多种范式,以兼顾推理精度与动作生成的物理一致性,代表性工作如HybridVLA在单一框架中结合扩散轨迹和自回归推理 [56][57] - 高级多模态融合强调3D空间理解和显式几何约束建模,从早期2D特征拼接转向模块化、具3D意识的架构,以提升在非结构化环境中的操作可靠性 [59][60] - 领域适配将VLA原则扩展至自动驾驶、人形机器人控制和GUI交互等特定场景,通过专用数据集(如CoVLA)和层级化设计解决领域独特挑战 [61][62] 数据集与仿真资源 - 高质量数据集是VLA模型发展的基石,真实世界数据集如Open X-Embodiment整合了来自21个机构的22个机器人数据集,覆盖527种技能和160,266个任务,显著提升了模型的泛化能力 [16][71][76] - 仿真数据集通过虚拟环境生成大规模标注数据,支持可扩展训练和安全测试,代表性平台包括THOR、Habitat和CARLA,它们提供了多样化的交互场景和传感器配置 [16][80][81] - 基准评测常用成功率、语言跟随率和轨迹误差等指标,并通过迁移到未见环境评估模型的鲁棒性,仿真基准如VIMA-BENCH和CALVIN设计了多级协议以系统化测试泛化能力 [76][79][82]
图像分词器造反了!华为 Selftok:自回归内核完美统一扩散模型,触发像素自主推理
机器之心· 2025-05-17 14:00
自回归范式在视觉生成领域的挑战与突破 - 当前视觉生成领域强行将图像网格化为空间token塞入自回归架构,导致因果链破碎,无法真正实现AR本质[1] - 华为盘古团队提出Selftok技术,通过反向扩散过程将自回归先验融入视觉token,使像素流转化为严格遵循因果律的离散序列[1][5] - 该技术入选CVPR 2025最佳论文候选(14/13008,0.1%)[3] 离散化视觉token的技术优势 - 连续视觉表征存在三重缺陷:预测稳定性差(MSE训练误差高于XE分类器)、强化学习复杂度激增、解耦能力受限导致模式坍缩[6] - 离散表征可保持高精度,实现因子更好解耦,且严格满足贝尔曼方程,使RL策略优化具有理论最优解[6][25] - 华为方案在ImageNet重建指标达SOTA:1024 token时rFID 0.54、PSNR 26.30、SSIM 0.805[29] Selftok核心技术架构 - 采用双流编码器:图像分支继承SD3 VAE隐空间,文本分支创新使用可学习连续向量组捕捉扩散特征[20] - 量化器通过EMA更新codebook和"code偏移监测-重激活"机制,解决传统训练不均衡问题[20] - 解码器引入时序感知token分配策略,昇腾910B2上单卡推理速度从8.2秒压缩至0.31秒[20] 多模态训练与强化学习优化 - 预训练扩展LLaMA-3-8B词表,新增32,768个图像token,复用LLM训练范式[24] - 设计两类奖励函数:基于程序的目标检测评估(提升图文一致性)和基于VQA任务的通用评估[25] - RL优化后模型在GenEval Bench达92分,超越GPT-4o;DPG Bench达85.57分,多项子任务SOTA[29][30] 跨模态生成与编辑性能 - 纯AR架构实现LLM与diffusion融合,单凭next-token prediction统一跨模态生成[7] - 图像编辑任务中结构距离35.89、PSNR 23.76,显著优于Prompt-to-Prompt等传统方法[33] - 多轮编辑展示精确指令遵循能力,非编辑区域保持效果匹配GPT-4o和Gemini-2.0[35]