Workflow
通用具身智能
icon
搜索文档
纯血VLA综述来啦!从VLM到扩散,再到强化学习方案
自动驾驶之心· 2025-10-01 00:04
文章核心观点 - 视觉-语言-动作模型代表了机器人学和具身智能领域的重要演进方向,旨在通过统一框架整合感知、语言理解和动作生成,以克服传统机器人系统在动态和非结构化环境中泛化能力不足的局限性 [1][10] - 该综述系统性地总结了纯VLA方法的研究现状,提出了基于动作生成策略的清晰分类体系,包括自回归、扩散、强化学习以及混合与特定领域方法四大范式,并梳理了相关的数据集、仿真平台和硬件资源 [7][9] - VLA模型的发展高度依赖高质量、大规模的多模态数据集和逼真的仿真器,资源如Open X-Embodiment整合了来自21个机构的22个机器人数据集,涵盖超过160,000个任务,显著加速了该领域的研究进程 [15] - 尽管VLA模型展现出通向通用具身智能的巨大潜力,但在可扩展性、泛化性、推理速度、安全性以及现实部署方面仍面临一系列关键挑战,未来的研究方向需要聚焦于数据局限性、效率优化和鲁棒性提升 [16][31][46] 背景介绍 - 传统机器人系统依赖于预编程指令、人工设计的控制策略或任务特定的强化学习方法,在受限环境中表现良好,但难以适应动态和非结构化环境 [10] - 从单模态建模到多模态整合是技术发展的自然轨迹,视觉Transformer和大语言模型等基础模型的突破为VLA模型的出现奠定了方法学和工程基础 [11][12] - VLA模型通过提供一个统一框架,将语言与感知相结合并直接映射为可执行的动作序列,从而闭合感知-语言-动作的循环,是迈向通用具身智能的重要一步 [10][13] - 通用具身智能的实现不仅依赖于认知处理,还需要物理身体、环境感知与反馈机制的协同,VLA模型正朝着这一愿景演进,并展现出在多样化机器人平台上执行广泛任务的潜力 [16] VLA方法分类:自回归范式 - 自回归范式是VLA研究中经典而有效的序列生成方法,通过将动作序列视为时间相关过程,在给定上下文条件下逐步生成动作token,其代表性模型包括Gato、RT-1/RT-2和PaLM-E等 [18][21] - 该类方法的关键创新方向包括通用型智能体构建、与大语言模型结合的语义规划与推理能力增强、轨迹生成与视觉对齐建模,以及旨在提升实时控制效率的结构优化与高效推理机制 [21][23][26][29] - 自回归模型通过在可扩展的Transformer架构中统一多模态感知、语言推理与序列化动作生成,推动了通用智能体的发展,但其局限性在于误差累积、推理时延以及对大规模计算和数据资源的高需求 [31] VLA方法分类:扩散范式 - 扩散模型将机器人控制重新表述为概率生成问题,通过条件去噪过程生成多样化的合理动作轨迹,在几何一致性、多任务泛化和自然语言接口方面展现出优势 [32][36] - 该范式的核心维度包括基础的动作生成建模、与Transformer结合的多模态架构融合,以及面向实际应用场景的优化与部署策略,代表性工作有Diffusion Policy、Dita和TinyVLA等 [34][37][39] - 扩散式VLA的研究正从实验室原型向真实世界部署过渡,趋势是结合轻量化设计、认知启发式架构和运行时鲁棒性机制,以平衡性能、效率与安全性,但其在动态环境中保持时间一致性方面仍较脆弱 [39][43][46] VLA方法分类:强化学习范式 - 基于强化学习的VLA方法通过引入视觉与语言信号来生成可迁移的奖励代理,并结合离线与在线学习策略以稳定策略优化,提升了在交互式动态环境中的决策能力 [48][51] - 该类方法已成功应用于机械臂操作、四足机器人导航、人形机器人全身控制以及自动驾驶等多个领域,例如SafeVLA引入了安全约束机制,NaVILA和LeVERB则针对特定机器人形态进行了适配 [49][50][52] - 强化学习微调策略增强了VLA模型的泛化能力和安全性,但其挑战在于奖励工程可能依赖噪声信号、训练稳定性问题以及在高维真实环境中部署时的高计算开销 [53] VLA方法分类:混合与特定领域方法 - 混合架构通过策略性地结合自回归、扩散和强化学习等多种范式,以发挥各自在连续动作生成、离散推理和环境适应性方面的互补优势,例如HybridVLA统一了扩散轨迹生成和自回归推理 [56][57] - 高级多模态融合研究从简单的特征拼接转向显式建模几何约束、空间关系和物体可供性,例如CLIPort和3D-VLA等工作显著提升了VLA模型在复杂3D场景中的空间落地性和动作生成可靠性 [58][59] - VLA框架展现出强大的领域适配性,已被扩展至自动驾驶、人形机器人控制、图形用户界面交互乃至安全关键系统等特定场景,这验证了其核心原则的普适性,但也带来了过拟合和领域特定挑战 [60][61][67] 数据集与基准测试 - VLA模型的发展极度依赖于高质量、大规模的多模态数据集,这些资源可分为真实世界采集和仿真环境生成两大类,例如Open X-Embodiment数据集整合了超过100万条轨迹,覆盖160,266项技能 [70][71] - 真实世界数据集如BridgeData、RT-1和RH20T等,提供了多模态观测与语言指令对齐的交互数据,但由于采集成本高昂,其规模性和任务多样性仍面临限制 [72][74] - 仿真平台如MuJoCo、Isaac Gym和CARLA等,提供了可扩展的虚拟环境,能够生成包含动作轨迹、物体状态和自然语言指令的多模态标注数据,有效缓解了真实机器人数据稀缺性问题,加速了模型训练与评估 [15][71]
基于313篇VLA论文的综述与1661字压缩版
理想TOP2· 2025-09-25 21:33
以下文章来源于自动驾驶之心 ,作者Dapeng Zhang等 自动驾驶开发者社区,关注自动驾驶、计算机视觉、感知融合、BEV、部署落地、定位规控、领域方案 等,坚持为领域输出最前沿的技术方向! 压缩版: VLA (Vision Language Action) 模型的出现标志着机器人技术从传统的基于策略的控制向通用机 器人技术的范式转变 。它将视觉语言模型 (VLM) 从被动的序列生成器重构为能够在复杂动态环 境中进行主动操作和决策的智能体 。 该综述对VLA方法进行清晰的分类和系统性的回顾。 VLA方法主要可分为四类:基于自回归、基于扩散、基于强化学习以及混合与专用方法 。 基于自回归 (Autoregression-based) 的模型 自动驾驶之心 . 核心思想: 将动作序列视为时间依赖过程,逐步生成动作 。 创新与发展: 通用智能体: 通过统一的多模态Transformer(如Gato, RT-1/RT-2, PaLM-E)实现跨任务的泛化 。 推理与规划: 结合大语言模型 (LLM) 进行链式思考 (Chain-of-Thought) 和分层规划,处理长时程 和复杂任务 。 轨迹生成: 直接将语言指 ...
从300多篇工作中,看VLA在不同场景下的应用和实现......
具身智能之心· 2025-09-25 12:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 兰州大学、中科院、新加坡国立等单位联合出品的一篇最新survey! Pure Vision Language Action (VLA) Models: A Comprehensive Survey 论文链接:https://arxiv.org/pdf/2509.19012 视觉-语言-动作(Vision Language Action, VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,同时也将视觉- 语言模型(Vision Language Models, VLMs)从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。 机器人技术长期以来一直是科学研究的重要领域。在历史发展进程中,机器人主要依赖预编程指令和设计好的控制策略来完成任务分解与执行。这些 方法通常应用于简单、重复性的任务,例如工厂 ...
深度综述 | 300+论文带你看懂:纯视觉如何将VLA推向自动驾驶和具身智能巅峰!
自动驾驶之心· 2025-09-25 07:33
文章核心观点 - 视觉-语言-动作模型代表了机器人技术从传统控制向通用机器人技术的范式转变,将视觉-语言模型从被动生成器转变为能在复杂环境中决策的主动智能体 [1] - 该综述综合了300多项最新研究,对VLA方法进行了系统分类,并探讨了其应用、关键挑战及未来发展方向 [1] - VLA模型通过整合视觉编码器、大型语言模型和强化学习的优势,旨在弥合“感知-理解-动作”的鸿沟,成为实现通用具身智能的核心路径 [16][23] VLA模型的核心范式与分类 - VLA方法被划分为五大范式:自回归模型、扩散模型、强化学习模型、混合方法及专用方法 [1][24] - 自回归模型通过Transformer架构统一多模态感知和序列动作生成,支持跨任务泛化,但存在误差累积和延迟问题 [26][39] - 扩散模型将机器人控制从确定性回归转变为概率性生成,支持从同一观测生成多种有效轨迹,但在动态环境中的轨迹稳定性仍需改进 [41][43] - 强化学习微调模型通过融合视觉-语言基础模型与RL算法,增强VLA的感知和决策能力,擅长结合人类反馈和适应新任务 [48][51] VLA模型的技术演进与关键创新 - VLA模型的发展经历了从单模态基础模型到多模态融合,再到“多模态+可执行控制”的演进路径 [16] - 关键技术创新包括模态token化、自回归动作生成、以及将视觉、语言、状态和动作统一在单一序列建模框架中 [20][30] - 代表性模型如Gato实现了异质模态的统一token化,RT-1基于13万条真实世界数据训练,RT-2融入了网络级VLM知识 [30] - 扩散模型领域的创新包括SE(3)-DiffusionFields将扩散扩展到SE(3)位姿空间,以及Dita构建的可扩展扩散Transformer [42][45] VLA模型的应用场景与机器人形态 - VLA模型已应用于多种机器人形态,包括机械臂、四足机器人、人形机器人和轮式机器人 [7] - 在自动驾驶领域,VLA模型用于轨迹生成和危险规避,CoVLA构建了包含5万条语言指令-轨迹对的大规模数据集 [55] - 专用领域适配包括GUI交互、人形全身控制以及特殊任务如魔方还原,展现了VLA的通用性 [55][57] - 人形机器人控制通过分层VLA框架实现,如LeVERB将视觉-语言处理与动力学级动作处理耦合,支持150+任务的仿真到现实迁移 [55] 数据集与仿真平台的支撑作用 - VLA模型的发展高度依赖高质量数据集和仿真平台,以解决数据稀缺和实机测试风险高的问题 [17] - 真实世界数据集如BridgeData涵盖10个环境中的71项任务,Open X-Embodiment整合了22个机器人数据集,包含160266个任务 [21][65] - 仿真平台如MuJoCo/Isaac Gym提供精确的物理仿真,CARLA面向自动驾驶提供真实城市交通场景,支持安全高效的大规模训练 [21] - 评估指标通常采用成功率、语言遵循率、L2距离和完成率等,以衡量模型的性能、鲁棒性和泛化能力 [66][68][74] VLA模型面临的挑战与未来方向 - 关键挑战包括可扩展性不足、在未知场景中的泛化性下降、实机部署的安全性风险以及仿真到现实的差距 [23][29] - 未来研究方向需解决数据局限性、推理速度、安全性以及长尾场景覆盖不足等问题,以加速通用机器人技术的发展 [7][23] - 效率优化和轻量化设计成为趋势,如MoLe-VLA通过混合专家路由降低40%计算成本,BitVLA采用1位量化将内存占用降至30% [36][55] - 安全机制和可解释性研究受到重视,SafeVLA引入安全评论网络和约束策略优化框架,以降低开放环境中的风险事件 [51][57]
中金:机器人大模型为具身智能破局关键 产业重心转向“小脑+大脑”系统研发
智通财经· 2025-09-19 10:05
机器人大模型技术发展 - 机器人大模型是破解传统机器人控制瓶颈、迈向通用具身智能的关键路径 [1] - 行业形成共识认为机器人大模型可通过融合视觉、触觉等多模态信息弥补机器人"物理常识"不足 [2] - 产业重心已转向"小脑+大脑"系统研发 不同企业在研发与商业化路径上存在差异 [1] 现有技术模型局限性 - 大语言模型在自然语言处理领域成熟但无法直接解决机器人物理操作问题且存在"幻觉"现象 [3] - 自动驾驶模型与机器人技术有相通之处但机器人面临场景更复杂 对通用性要求更高 [3] - 自动驾驶领域存在的极端场景泛化不足和安全冗余失衡问题在机器人领域同样难以突破 [3] 商业化发展路径 - 商业化存在"硬件优先"(由车企、机器人企业主导)和"模型优先"(由AI企业主导)两种路径 [4] - 受场景复杂度、技术门槛及商业回报周期影响 多数企业可能聚焦特定垂直领域实现场景化应用 [4] - 仅有少数具备全栈技术能力、资源整合优势与长期主义战略的企业有望突破至"具身智能"层级 [1][4]
自变量机器人获近10亿元A+轮融资
北京商报· 2025-09-08 10:08
融资情况 - 自变量机器人公司完成近10亿元A+轮融资 [1] - 本轮融资由阿里云和国科投资领投 国开金融、红杉中国、渶策资本跟投 [1] - 老股东美团战投超额跟投 联想之星和君联资本持续追投 [1] 资金用途 - 资金将用于全自研通用具身智能基础模型的持续训练 [1] - 资金将用于硬件产品的研发迭代 [1] 技术路径 - 公司自2023年底成立起确立以端到端统一大模型实现通用具身智能的技术路径 [1] - 近期发布适配多模态大模型控制的全自研轮式双臂仿人形机器人量子2号(Quanta X2) [1]
人形机器人开始比拼订单落地:松延动力称7月量产交付破百台
21世纪经济报道· 2025-08-01 17:46
公司商业化进展 - 松延动力7月实现量产交付105台人形机器人 其中N2型92台 E1型13台 环比增长176% 创公司最高交付纪录 [1] - 公司量产启动不足2个月即实现单月破百台交付 跻身人形机器人赛道头部 目前处于产能快速爬坡阶段 [1] - 总订单规模突破2500台 总合同额超1亿元 成为继宇树科技后又一家销量破千的人形机器人公司 [2] - 北京昌平工厂拥有3000平米标准厂房 常州天宁工厂拥有2100平米厂房 另设东莞基地专注仿生人形机器人生产 [2] 公司战略与融资 - 2023年成立至今完成五轮融资 投资方包括英诺天使基金 SEE Fund无限基金 水木清华校友种子基金等 [2] - 2024年3月完成两轮过亿元融资 近期正交割A++轮和Pre-B轮融资 规模约数亿元 [4] - 下半年重点目标是将订单破亿元转化为确收破亿元 2025年目标交付量达万台 [2] - 通过"百日誓师大会"全力解决量产交付问题 强调交付可靠性与避免大规模返修风险 [3] 行业动态与竞争格局 - 行业头部企业频获大额订单:优必选中标觅亿汽车科技9051.15万元采购项目 智元机器人和宇树科技中标中国移动1.24亿元代工服务项目 [5] - 2024年多家企业完成融资:它石智航获1.2亿美元天使轮融资(具身智能行业最高纪录) 银河通用获11亿元融资 宇树科技获7亿元融资 [4] - 行业应用场景存在同质化竞争 松延动力订单主要来自教育 科研 文旅展示和商业演出领域 与友商重合度较高 [6] - 行业现阶段处于马拉松"起跑阶段" 尚未达到商业爆发时点 需聚焦高产品力与高价值场景的匹配 [5][6] 行业专家观点 - 单月交付破百台证明松延动力具备大规模生产和快速爬产能力 完成商业化能力闭环验证 [1] - 人形机器人行业共同目标是实现通用具身智能 当前需通过售后反馈促进技术研发突破 建立利润和正向现金流 [5] - 松延动力正加强现有场景渗透并开拓新场景 以规避同质化竞争 行业场景开发仍处早期阶段 [6]
四川首批机器人产业机会清单发布
新华财经· 2025-07-31 17:08
行业政策与活动 - 四川省机器人产业供需对接活动在成都中国西部国际博览城举行 [1] - 四川首批机器人产业机会清单正式发布 包括应用场景、重点产品、技术需求、创新平台四张子清单 [1] 应用场景清单 - 应用场景清单共收集194个场景 覆盖工业、公安、民政、文旅、卫健、应急等系统 [1] - 场景分为制造与物流、生活与服务、医疗与康复、导览与交互、应急与巡检、特种作业六大需求类型 [1] 重点产品清单 - 重点产品清单采用自愿申报方式 第一批选录120个产品 [1] - 产业分布以成都和绵阳为主承载地 其他市州协同支撑 [1] - 产品分类在应用场景6类基础上增加通用具身智能和机器人关键零部件 共8种类别 [1] 技术需求与创新平台 - 技术需求清单共35条 涉及20多家企业 覆盖智能算法、关键零部件、外观设计、系统集成、产品优化等领域 [2] - 创新平台清单共10个 包括四川省机器人及智能装备创新中心、绵阳科技城新区机器人产业技术研究院等重点平台 [2] - 平台主要分布于成都、德阳、绵阳等地 [2] 产业发展规划 - 产业机会清单将持续更新迭代 致力于打通供需信息堵点 [2] - 以标志性产品为牵引 加强整零对接、技术对接、产融对接、场景对接 [2] - 推进机器人样机试制、中试验证、迭代升级、示范应用 加快建设机器人产业集群 [2]
百万规模数据集打造人形机器人通用大模型,实现精细动作跨平台、跨形态动作迁移丨北大人大联合发布
量子位· 2025-05-14 16:55
技术突破 - 北大和人大团队首创具备数据-模型协同放量特性的通用动作生成框架Being-M0 [1] - 构建业界首个百万规模动作生成数据集MotionLib,规模达现有最大公开数据集的15倍 [4][10] - 研发端到端文本驱动动作生成模型,实现人体动作向多类型人形机器人的迁移 [2] 数据集创新 - 从2000万段视频中筛选出100万条高质量动作序列,建立全自动化处理流程 [7][10] - 采用分层标注方案,利用Gemini-1.5-pro生成结构化描述,细化到身体部位运动特征 [10] - 数据集包含RGB视频、深度信息等多模态数据,支持多人交互场景分析 [10] 模型架构 - 验证模型规模与数据规模的协同放大效应,13B参数模型比700M参数模型性能显著提升 [13] - 提出MotionBook二维无查找量化框架,使动作词表容量提升两个数量级 [16] - 空间-时序解耦编码保留运动多维结构特征,解决传统VQ技术信息损失问题 [16] 动作迁移 - 创新"优化+学习"两阶段方案,实现人体动作向宇树H1/H1-2/G1等机器人的高效迁移 [6][19] - 多目标优化生成满足机器人运动学约束的动作序列,保证数据质量 [20] - 轻量级MLP网络学习映射关系,提升系统实时性能同时保持准确性 [20][21] 应用前景 - 为构建通用动作生成模型提供关键设计准则,奠定通用动作智能基础 [5][14] - 推动人形机器人具身大模型、灵巧操作等技术的发展 [22] - 项目将持续迭代,目标是让机器人具备更强通用能力和自主性 [22]
北京一季度产业经济亮点纷呈:增长强劲、创新加速、信心攀升
新京报· 2025-04-28 19:00
产业经济表现 - 一季度北京工业和信息软件业增加值突破4000亿元 占全市GDP比重超过35% [3] - 全市GDP增速5.5% 工业和信息软件业贡献近3个百分点 规上工业增加值增长6.8% 增速跑赢全国 [3] - 汽车制造和电子信息业增加值分别实现17.2%和28%的高速增长 [3] 创新动能发展 - 国际医药创新园吸引美敦力、阿斯利康、辉瑞三大巨头研发中心入驻 [3] - 高技术制造业和战略性新兴产业均保持两位数增长 [3] - 数字经济增加值同比增长8.3% 其中核心产业增长9.7% [3] - 自动驾驶新规落地 国产算力验证中心平台投用 全球首个通用具身智能平台"慧思开物"亮相 [3] 重大项目投资 - 京津冀新能源汽车科技生态港等重大项目落地开工 [4] - 工业重点产业投资增长23.1% 信息软件业投资激增1.8倍 [4] 出口贸易表现 - 规上工业出口交货值突破500亿元 创近3年同期新高 [4] - 汽车出口增长52% 电气机械出口增长1.2倍 [4] 市场信心指标 - 前两月信息软件业利润增幅达37.5% 研发投入保持两位数增长 [4] - 制造业PMI重返扩张区间 [4] - 一季度新设工业企业增长25.7% 信息软件业企业注册量激增1.8倍 [4]