Vision-Language-Action(VLA)模型
搜索文档
REALM:机器人操作任务的real2sim验证基准
具身智能之心· 2025-12-27 18:03
文章核心观点 - 捷克理工大学与阿姆斯特丹大学的研究团队构建了一个名为REALM的高保真仿真环境与基准,旨在解决Vision-Language-Action模型在机器人操纵任务中泛化能力评估的挑战,其核心目标是建立仿真与真实世界性能的强相关性,以实现大规模、低成本的评估 [2] 相关工作与差异化优势 - 现有机器人操纵泛化基准存在显著局限,如支持的扰动类型少、技能和物体种类有限、仅支持单视角等 [3] - REALM在多个维度上具有全面优势:涵盖6种视觉、8种语义、7种行为扰动,支持7项技能、10个场景和超过3500个物体,同时具备高保真视觉、控制对齐和多视角功能 [3][4] - 现实-仿真差距源于视觉保真度不足和控制对齐缺失,REALM通过重新设计机器人控制器并优化物理参数,同时提升了视觉与控制的真实性 [4] 基准设计核心要素 - **技能与任务集**:基于DROID数据集设计了7项核心操纵技能,包括拾取、放置、推动、旋转、堆叠、打开、关闭,基准包含两个任务集 [5] - **扰动设计**:为系统测试泛化能力,设计了15种扰动,覆盖视觉、语义、行为三大类别 [6] - **评估指标与控制对齐**:采用分层进度指标替代二元成功率,对技能进行更细粒度的性能反映;通过重新实现控制器并优化14个物理参数,实现了仿真与真实轨迹的高一致性 [9] 真实-仿真对齐与验证 - 通过近800组轨迹对测试验证,仿真与真实世界的任务进度呈现强线性相关,所有设置下p值小于0.001,证明仿真是真实世界性能的可靠代理 [11] - 在验证视觉差距时,模型在真实与仿真帧上的注意力图余弦相似度得分达0.85,表明高保真视觉设计有效避免了模型预测失真 [11] 关键实验结果与发现 - **视觉泛化**:纯视觉扰动对模型性能有显著影响,平均RMSD达0.12以上,其中视角变化和场景干扰物影响最显著 [14] - **语义泛化**:语义扰动对模型构成巨大挑战,需要世界知识和人类需求关联的扰动影响最显著 [17] - **行为泛化**:行为扰动是最具挑战性的类别,模型在跨物体泛化时表现极差,面对未见过的物体时性能大幅下降;物体姿态扰动导致两模型性能均下降0.12 [18] - **鲁棒性与任务完成**:-FAST模型在所有扰动下的平均任务进度最高,在9/10任务中成功率领先;所有模型完成简单任务的平均时间长达20-30秒,且方差较大,说明在未知环境中难以高效稳定地完成任务 [19]
领域首篇RL+VLA 综述:强化学习如何推动 VLA 走向真实世界?
具身智能之心· 2025-12-19 08:05
文章核心观点 强化学习正成为连接视觉语言动作模型预训练与真实世界部署的关键桥梁 通过强化学习的闭环优化 VLA模型能够从依赖模仿学习的开环推理 转向具备结果导向 失败恢复 自主探索与闭环纠错能力的智能体 从而克服其在真实世界分布外场景中的脆弱性 提升泛化能力和鲁棒性 [1][2][4] RL-VLA架构:从开环推理到闭环优化 - **动作建模**:RL通过奖励驱动策略更新 使VLA转向闭环决策 具体架构包括自回归VLA 生成式VLA和双系统结构 [4][6] - **自回归VLA**:通过token-level RL实现稳定优化 但离散动作令牌难以实现灵巧操作 细粒度分词会增加预测难度 [6] - **生成式VLA**:在扩散或Flow动作空间中进行sequence-level RL 但依赖局部采样和不完美信号 可能导致动作分布随迭代更新而扭曲或崩溃 [6] - **双系统结构**:RL用于对齐高层视觉语言模型规划与低层VLA控制 但两者间的异构表示和时间尺度可能导致价值估计不一致 联合训练不稳定 [6] - **奖励设计**:为克服模仿学习局限性和奖励稀疏性问题 采用内在奖励和外在奖励 外在奖励来自人类偏好或基础模型 更具任务对齐性 [8][9] - **环境建模**:采用物理模拟器或学习型世界模型来预测未来状态 推动基于模型的RL-VLA [9] RL-VLA训练范式深度拆解 - **在线强化学习**:智能体在训练中与环境持续交互 通过试错收集轨迹并更新策略 赋予VLA适应性闭环控制能力 但非平稳动力学和多模态噪声使策略优化难以维持稳定可靠的更新 [11][12] - **离线强化学习**:从静态数据集中学习策略 核心挑战是数据集的不平衡性和不完整的奖励信号限制了泛化能力 [13][15] - **策略优化**:采用PPO变体来平衡学习效率和稳定性 实证研究证明RL微调相比标准监督微调能显著增强分布外场景下的泛化能力 [14] - **样本效率**:通过结合人类专家演示或集成Actor-Critic架构提供密集信号 在有限预算下学习有效策略 [14] - **主动探索**:设计高效探索策略 例如使用大语言模型生成高层任务规划来指导低层RL策略探索 或自动生成具有挑战性的分布外数据创建失败和恢复轨迹 [14] - **训练稳定性**:通过动态推演采样或利用世界模型作为模拟器生成合成推演 降低真实世界互动带来的方差和不稳定 [14] - **测试时强化学习**:在部署过程中 VLA通过轻量级更新或适配器模块调整行为 无需进行全面模型微调 但预推理未来动作序列和评估大量动作候选带来了显著的计算成本 限制了实时部署能力 [16][17] - **数据利用**:采用保守约束限制策略更新 防止偏离数据集覆盖的分布 或通过重塑轨迹 生成奖励进行定制化表示 [20] - **目标修改**:设计与VLA结构相匹配的RL目标 或利用RL目标增强离线数据集生成高质量的合成轨迹 [20] - **价值指导**:利用预训练的奖励或价值函数直接影响动作选择 例如重新排序动作候选项或引入价值引导思维 [20] - **内存缓冲指导**:在推理时检索相关的历史经验以提高探索效率和知识复用 [20] - **规划引导适应**:显式推理未来的动作序列以选择最优动作 例如使用在线蒙特卡洛树搜索或利用价值函数进行进度监控和错误纠正 [20] 真实世界部署 - **核心目标**:在物理机器人上运行RL-VLA模型 实现在非结构化环境中的安全和自主操作 主要通过Sim-to-Real迁移和物理世界强化学习来应对样本效率 安全性和硬件限制等挑战 [21] - **Sim-to-Real迁移**:目标让在模拟环境中训练的VLA模型有效泛化到物理机器人 解决领域迁移问题 但迁移后的策略表现仍逊于模拟环境 例如SimpleVLA-RL在物理机器人上的成功率远低于模拟环境 [22][23] - **物理世界强化学习**:直接在真实机器人上训练操作策略 但带来了样本效率低下和安全风险等重大挑战 [24] - **人在环强化学习**:通过整合人类专业知识加速收敛并减少不安全探索 但现有方法严重依赖人类干预样本 导致人力成本高昂且可扩展性差 [24][25] - **可逆性与自主恢复**:使机器人能够在发生故障后自行处理并继续学习 减少人工重置和劳动成本 但真实世界交互的固有不可逆性 部分可观察性以及长期训练的不稳定性阻碍了可靠的故障检测和恢复 [26][27] - **安全探索**:在经验收集过程中确保智能体避免与物理环境发生不安全的互动 最大挑战在于高层语义推理与低层安全保障的整合 [28][29] - **领域随机化**:通过随机化广泛的模拟参数来匹配真实世界中的感知多样性 例如SimpleVLA-RL模型通过在多样化任务模拟中应用领域随机化 实现了对真实机器人的零样本迁移 无需额外微调 [30] - **数字孪生**:创建物理系统的同步虚拟副本 实现安全和可扩展的策略训练 包括实时校正 数据生成和可微分引擎等方法 [30] - **人类纠正干预**:人类提供实时反馈以纠正机器人动作 加速技能获取和安全探索 [31] - **人类恢复辅助**:在自主恢复不可靠时 人类手动介入重置机器人或环境 减少失败的影响 [31] - **人类课程任务设计**:人类主管设计从简单到复杂的课程任务 以平衡安全性和学习效率 [31] - **免重置学习**:引入辅助重置策略将智能体带回初始状态或可恢复区域 实现持续训练 [31] - **语义感知恢复**:强调对操作时空动态的推理 通过语言模型或本体论来解释故障原因并规划适当的恢复行为 [31] - **保守安全评论家**:训练辅助评论家来评估动作提议违反安全约束的可能性 [31] - **实时安全执行**:在执行层面应用控制理论安全约束 例如使用阻抗控制器来限制末端执行器的力和速度 SafeVLA模型通过约束学习优化VLA以应对安全风险 [31] 评估 - **评估现状**:是RL-VLA研究中尚未统一但极其关键的一环 未来评测需要从单次成功率走向鲁棒性 可恢复性与长期自主性 [32] - **仿真基准**:包括LIBERO ManiSkill CALVIN RoboTwin等 用于分析泛化与算法对比 [36] - **真实世界基准**:包括LeRobot SERL等 更贴近部署挑战 [36] - **评测难点**:成功率难以反映恢复能力与安全性 不同RL范式 不同动作表示间缺乏可比性 长时序任务与真实物理约束评估不足 [36] 开放挑战与展望 - **核心进展**:RL-VLA通过强化学习驱动的闭环优化 克服了模仿学习在分布外场景中的根本限制 使其策略更具泛化能力和鲁棒性 [34] - **关键挑战与解决方案**: - **开放挑战**:记忆检索机制和思维链式监督 以保持长期时间一致性 [34] - **解决方案**:基于模型的强化学习 通过预测世界模型进行可扩展的训练 提高效率和可扩展性 [34] - **开放挑战**:自主故障处理智能体 以减少人类干预提高效率 [34] - **解决方案**:多机器人共享训练与实转模拟推演 [34] - **开放挑战**:预测风险建模 以确保可靠的物理操作 [34] - **解决方案**:基于约束的策略优化和语言条件下的安全推理 [34] - **开放挑战**:长序列任务的扩展性 样本效率低下 真实机器人训练成本 [34] - **未来方向**:强化学习正在推动VLA从高性能模仿者进化为具备自主探索 恢复与安全决策能力的通用机器人系统 [34]
ActDistill:同济大学提出动作引导蒸馏框架,机器人推理速度提升1.67倍
具身智能之心· 2025-11-26 08:05
文章核心观点 - 提出一种名为ActDistill的新型高效蒸馏框架,旨在解决Vision-Language-Action模型在机器人等具身智能场景中因计算开销大、推理延迟高而难以实时部署的问题 [2][3] - 该框架的核心思路是以动作预测为导向,将大型教师模型的动作中心语义迁移到轻量化学生模型,实现效率与保真度的平衡 [4] - 实验验证表明,该框架能在计算量减少50%以上、推理速度提升最高1.67倍的同时,保持接近全量模型的任务成功率 [9][12][24] 研究背景与核心问题 - Vision-Language-Action模型在机器人操作、视觉导航等场景中表现出强大的多模态推理能力,但其庞大架构和频繁的跨模态交互导致计算开销大、推理延迟高,难以部署在实时或资源受限的系统中 [2] - 现有高效VLA策略多沿用视觉-语言模型的优化思路,优先压缩视觉-语言相关性,却忽略了动作预测的核心目标,容易造成关键信息损耗和动作语义不连贯两大问题 [2] 核心方法:ActDistill框架 - 框架包含两大核心模块:图结构封装和动作引导自衍生蒸馏 [4] - **图结构封装模块**通过动态关系图构建、消息传递与语义胶囊生成,显式建模动作语义的层级演化,分离任务相关交互与冗余背景信号 [6] - **动作引导自衍生蒸馏模块**通过自衍生学生模型与动态路由,在效率约束下复现教师的决策过程,训练时采用软门控联合优化,推理时通过阈值离散化以仅保留动作相关计算 [8] 实验验证 - **性能与效率平衡**:在LIBERO基准上,平均成功率为73.95%,仅比全量模型(74.95%)低1.0%,但计算量减少50.5%(FLOPs为49.5%),推理速度提升1.59倍 [9][12] - 在SIMPLER基准的视觉匹配场景中,平均成功率为74.08%,接近全量模型的74.75%,速度提升1.67倍,计算量仅为原模型的42.3% [10] - **消融实验**:图结构封装至关重要,将其中的GAT替换为MLP后,平均成功率从74.08%降至64.53%,抽屉操作任务性能暴跌25.4% [13] - **可视化分析**:适度跳过中间层可在保持73.9%成功率的同时将延迟降至28.3ms,且生成的机器人轨迹平滑,能有效规划无碰撞路径 [14][16] 关键结论与未来方向 - 该研究提出了首个以动作预测为导向的通用蒸馏框架,打破了视觉-语言模型的效率优化范式 [24] - 方法融合了图结构封装与动态路由,在自回归与扩散基VLA架构上均有效,计算量减少50%以上,速度提升最高1.67倍 [24] - 未来方向包括探索无教师或强化学习引导的变体,以及将长时序推理融入路由机制 [24]
3个月!搞透VLA/VLA+触觉/VLA+RL/具身世界模型等方向!
具身智能之心· 2025-08-22 08:04
具身智能技术演进 - 技术发展经历了四个阶段:从抓取位姿检测(单步决策缺乏任务上下文建模)到行为克隆(端到端模仿但泛化能力弱),再到2023年Diffusion Policy(扩散模型生成动作轨迹提升稳定性与泛化能力),最终进入2024年Vision-Language-Action模型阶段(多模态协同支持零样本泛化)[6][7] - 2025年技术探索聚焦VLA模型与强化学习、世界模型、触觉感知的融合,以弥补"只能理解不能反馈""只能关注当下不能看见未来""只能看不能触"的局限[8] - 技术演进路径体现从"低层感知->中层策略->高层理解"的能力补齐,逐步迈向通用任务和开放环境智能体时代[9] 产业生态与竞争格局 - 国内企业如华为2024年底启动"全球具身智能产业创新中心"并与乐聚机器人、大族机器人合作建设大脑与小脑关键技术;京东自2025年5月连续投资智元机器人、千寻智能、逐际动力以强化物流与家庭服务场景能力;腾讯、蚂蚁、小米等通过战略投资加快生态构建[5] - 国外企业如Tesla/Figure AI聚焦工业与物流机器人应用;美国投资机构支持Wayve、Apptronik等公司落地自动驾驶与仓储机器人[5] - 国内以产业链投资与综合平台驱动落地,国外侧重基础模型、模拟环境与类人机器人原型研发,双方进入关键竞赛阶段[5] 应用场景与商业化进展 - 技术发展推动人形机器人、机械臂、四足机器人等产品在工业、家居、餐饮、医疗康复等领域落地,相关产品和融资活动活跃[9] - 岗位需求呈现爆发式增长,吸引大量人员转入具身智能领域研究[9] 技术体系与学习框架 - 具身智能核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行),需系统学习灵巧操作、移动操作、仿真框架、Diffusion Policy、VLA及融合技术[1][20] - 主流仿真框架包括Mujoco(生态系统架构与接口)、Isaac Gym(数据采集与可视化)、Pybullet(数据集与接口)[21] - 关键技术方法涵盖Diffusion Policy数学原理与3D点云融合、VLA模型(OpenVLA/PI0/SmolVLA架构与性能对比)、VLA+强化学习/触觉/世界模型的融合方案[21]
VLA/VLA+触觉/VLA+RL/具身世界模型等方向教程来啦!
具身智能之心· 2025-08-18 08:07
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 具身智能的核心模块分为大脑(语义理解与任务规划)和小脑(高精度运动执行) 类比人类神经系统结构 [1] 产业动态 - 近2年星海图 银河通用 逐际动力等明星团队从实验室走向商业化 推动本体与大小脑技术进步 [3] - 国内华为2024年启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人攻关关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力 强化物流与家庭服务场景能力 [5] - 国际方面Tesla/Figure AI聚焦工业物流机器人 Wayve/Apptronik获资本支持发展自动驾驶与仓储机器人 [5] 技术演进路径 - **第一阶段**:抓取位姿检测(Grasp Pose Detection) 通过点云/图像预测末端执行器姿态 但缺乏任务上下文建模 [6] - **第二阶段**:行为克隆(Behavior Cloning) 通过专家数据学习端到端映射 存在泛化能力弱 误差累积问题 [6] - **第三阶段**:2023年Diffusion Policy引入序列建模 2024年VLA模型实现多模态协同 支持零样本泛化 [7] - **第四阶段**:2025年探索VLA与强化学习 世界模型 触觉感知融合 解决反馈 预测与触觉局限 [8] 应用与产品 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗等场景落地 [9] - 行业岗位呈现爆发式增长 吸引大量从业者转入具身智能领域 [9] 技术体系与课程 - 课程系统梳理大脑+小脑技术路线 涵盖灵巧手 移动操作 人形机器人方法 [15] - 包含主流仿真框架配置 DP/VLA/VLA+RL/VLA+触觉等方法详解 以及世界模型下一代范式 [15] - 实践环节覆盖Sim2Real演进 IsaacGym/Mujoco仿真环境 Diffusion Policy代码实战 VLA模型训练等 [21] - 目标群体包括具身算法从业人员 研究方向学生 以及传统CV/自动驾驶转行者 [24][29]
国内首个具身大脑+小脑算法实战全栈教程
具身智能之心· 2025-08-07 10:38
具身智能概述 - 具身智能强调智能体与物理环境的交互与适应 聚焦于感知环境 理解任务 执行动作并反馈学习的能力 [1] - 大脑模块负责语义理解和任务规划 小脑模块负责高精度运动执行 构成具身机器人核心架构 [1] 产业动态 - 2024年华为启动"全球具身智能产业创新中心" 联合乐聚机器人 大族机器人等企业共建大脑 小脑关键技术 [5] - 京东2025年起连续投资智元机器人 千寻智能 逐际动力等公司 强化物流科技与家庭服务场景能力 [5] - 腾讯 蚂蚁集团 小米通过战略投资加速构建具身智能产业生态 [5] - 国外Tesla/Figure AI聚焦工业与物流机器人 Wayve Apptronik获资本支持推进自动驾驶与仓储机器人应用 [5] 技术演进路径 - **第一阶段**:抓取位姿检测技术依赖单步决策 缺乏任务上下文建模能力 [6] - **第二阶段**:行为克隆技术通过专家数据实现端到端映射 但存在泛化能力弱 误差累积缺陷 [6] - **第三阶段**:2023年Diffusion Policy采用扩散模型生成动作轨迹 提升策略稳定性与泛化能力 [6] - **第四阶段**:2024年VLA模型融合视觉 语言与动作模块 支持零样本快速泛化 实现"感知+推理+行动"范式跃迁 [7] - 2025年技术探索聚焦VLA与强化学习 世界模型 触觉感知的融合 突破环境预测与多模态感知边界 [8] 商业化应用 - 技术演进推动人形机器人 机械臂 四足机器人在工业 家居 餐饮 医疗康复领域落地 [9] - 行业岗位呈现爆发式增长 吸引大量跨领域人才转入具身智能研究 [9] 工程化挑战 - 产业界需求推动从论文向部署转型 对Mujoco IsaacGym Pybullet等仿真平台训练能力要求提升 [13] - 需解决Diffusion Policy/VLA模型训练部署 强化学习反馈微调 世界建模一体化架构等工程难题 [13] 人才能力需求 - 从业者需掌握Python/Pytorch基础 具备3090ti及以上算力设备 [17] - 核心技能覆盖仿真环境搭建 模型训练优化 触觉信息融合 世界模型应用等全栈能力 [17]
理想最新DriveAction:探索VLA模型中类人驾驶决策的基准~
自动驾驶之心· 2025-06-21 21:15
研究背景与问题提出 - 自动驾驶技术发展中,Vision-Language-Action(VLA)模型凭借多模态处理能力带来新机遇,但现有基准数据集在场景多样性、动作标注可靠性和评估协议一致性方面存在不足,制约了VLA模型的发展和应用 [2] - 现有基准数据集主要问题包括:场景多样性不足(来源单一,忽略复杂场景如道路合并、行人交互等)、动作标注不真实(缺乏实时驾驶意图反映)、评估框架不完善(未体现目标驱动决策模式) [3] DriveAction基准的核心创新 - 提出首个专为VLA模型设计的动作驱动基准,三大创新包括:用户贡献的广泛覆盖驾驶场景、与人类驾驶偏好一致的真实标注、以动作为根的树状结构评估框架 [3] - 数据集覆盖中国148个城市及所有量产车型记录,涵盖7大关键场景类别(如匝道合并、导航变道、绕行弱势道路使用者等),每个场景关联多种细粒度动作 [5] - 动作标签直接来源于用户实时驾驶操作,离散化为高级动作并经过多轮人工验证,确保可靠性和有效性 [6] 实验设计与关键发现 - 评估12个VLM模型,分为非推理模型(如GPT-4o、Claude 3.5 Sonnet)和推理模型(如o1、Gemini 2.5 Pro),通过VLMEvalKit实现性能测量 [11] - 全流程模式(V-L-A)准确率最高,无信息模式(A)最低:移除视觉输入准确率下降3.3%,移除语言输入下降4.1%,两者均移除下降8.0% [14] - 推理模型在复杂场景下优于非推理模型(如o1和o3在V-L-A模式下准确率超92%),但无信息模式下部分非推理模型表现更优 [14] - 特定任务评估显示:模型在动态/静态障碍物任务表现较好,导航任务得分较低(车道定位能力有限),交通灯任务准确率持续偏低 [16][17] DriveAction的意义与价值 - 为学术界提供更全面、真实的评估工具,推动VLA模型研究发展,同时支持工业界识别模型瓶颈并优化系统 [20] - 通过促进学术界与工业界在一致评估标准下合作,加速自动驾驶技术向更安全、智能的方向发展 [20]