VLA模型
搜索文档
从DriveVLA-W0出发:探讨世界模型如何放大VLA的扩展定律(中科院)
自动驾驶之心· 2025-11-04 08:03
戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>直播和内容获取转到 → 自动驾驶之心知识星球 点击按钮预约直播 在自动驾驶领域,通过大规模数据来扩展视觉-语言-动作模型,为构建更通用的驾驶智能提供了一条充满前景的道路。然而,VLA模型一直面临" 监督缺失 "的问 题:其庞大的模型能力仅由稀疏、低维的动作信号进行监督,导致其大部分表征潜力未能得到充分利用。 为解决此问题,中科院和华为引望的团队提出了 DriveVLA-W0, 一种利用世界模型来预测未来图像的训练范式。 为验证DriveVLA-W0的通用性,本文在两种主流 VLA架构上展开验证:针对采用离散视觉token的VLA模型,设计自回归世界模型;针对基于连续视觉特征的VLA模型,设计扩散世界模型。基于世界建模学习到的 丰富表征,本文进一步引入轻量级动作专家(action expert),以解决实时部署中的推理耗时问题。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 DriveVLA-W0: 利用世界模型放大VLA的 拓展定律 时间:11.4 / 19:30-20:30 直播简介 VLA模型是通向通用自动驾驶的希望路 径,却受限于"监督赤字": ...
最火VLA,看这一篇综述就够了
具身智能之心· 2025-11-03 08:03
作者丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 ICLR 2026爆火领域VLA(Vision-Language-Action,视觉-语言-动作)全面综述来了! 如果你还不了解VLA是什么,以及这个让机器人学者集体兴奋的领域进展如何,看这一篇就够了。 文章作者 Moritz Reuss 是2025年Apple AI/ML学者奖得主,曾在RSS、ICLR、NeurIPS等顶级会议多次发表研究成果。这篇综述既是一线 研究者的实战总结,也是洞察趋势的前沿观察。 文章一出,评论区好评不断,甚至顶级猎头Mark Wallace直接抛出了橄榄枝。 这个VLA,究竟有多火? 据统计, VLA模型 相关投稿量,从去年的个位数飙升至164篇,足足增长了18倍。 这股热潮背后,让机器人 "听懂人话、看懂世界、动手干活" ,正成为AI领域极具吸引力的前沿阵地。 然而,在这片繁荣之下,一个问题也随之浮现: 当我们谈论VLA的进步时,我们到底在谈论什么? VLA ...
边缘设备上高效运行!NanoVLA :保留 VLA 模型的精度与泛化能力,推理速度提升 52 倍
具身智能之心· 2025-11-02 00:03
文章核心观点 - NanoVLA模型通过创新的“视觉-语言解耦融合+长短动作分块+动态路由”架构,解决了通用视觉-语言-动作模型在边缘设备上部署时“通用化”与“轻量化”的矛盾 [2] - 该模型在保持甚至超越现有大型VLA模型任务精度与泛化能力的同时,将推理速度提升52倍,参数量压缩98%,首次实现在资源受限的边缘设备上高效运行通用机器人策略的目标 [2][19][32] 技术瓶颈与解决思路 - 传统VLA模型存在三大设计瓶颈:模态融合冗余导致高延迟、动作执行僵硬导致运动失准、模型容量错配导致资源浪费与性能不足并存 [3] - NanoVLA的突破思路并非单纯缩小模型,而是重构推理逻辑,通过解耦静态指令与动态视觉、分阶段规划动作、自适应选择骨干网络,实现计算资源的“按需分配” [3] 核心架构模块 - **视觉-语言解耦融合与缓存**:分离模态编码并延迟融合时机,对静态指令特征进行缓存复用,仅需动态更新视觉嵌入,使计算量减少62% [8][12] - **长短动作分块**:训练时学习长序列依赖以保证动作连贯性,推理时执行短窗口并结合高频环境反馈重新规划,在LIBERO长任务中成功率比固定长序列执行高16%,动作抖动减少30% [9][11][13][14] - **动态路由**:引入轻量级路由器,根据任务复杂度自适应选择轻量或重量级骨干网络,使简单任务中轻量骨干使用占比超80%,平均参数量降至296M,仅为OpenVLA的4% [15][18][21] 性能表现 - **模拟基准测试**:在LIBERO基准上,NanoVLA-R版本取得84.1%的平均成功率,比7.5B参数量的OpenVLA高7.6%,比450M参数量的SmolVLA高5.5% [20] - **真实机器人测试**:在搭载Jetson Orin Nano的LeRobot机器人上,NanoVLA在12类真实任务中的平均成功率达85.6%,超越OpenVLA的80.4% [26] - **边缘设备效率**:在Jetson Orin Nano上,NanoVLA-R的推理速度达到41.6 FPS,是OpenVLA(0.8 FPS)的52倍,同时在LIBERO-Goal任务上成功率提升8个百分点 [22][29] 行业意义与未来方向 - NanoVLA为通用机器人策略的边缘部署提供了不牺牲精度的轻量化路径,其架构范本可直接复用于工业巡检、家庭服务、嵌入式操控等产业化场景 [30][32] - 未来技术演进方向包括融入触觉/力觉等多模态信号以提升操作精度、通过知识蒸馏实现端到端轻量化、以及扩展适配双臂、移动机器人等多机器人形态 [31]
单张4090跑到30fps,范浩强团队让VLA实时跑起来了
具身智能之心· 2025-11-02 00:03
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 具体而言,对于常用的 Pi0 级别的模型(30 亿参数),在单张消费级显卡 RTX 4090 上最快可以跑到 30fps。这和大家对于 VLA 模型动辄要几十甚至上百毫秒的 刻板印象形成鲜明对比。 为实现这点,研究者深入分析 Pi0 的模型结构,通过一系列优化把用时从开始的 100+ ms 进行数倍缩减(针对双视角,甚至已经达到 27ms),显著强于 openpi 里采用的基于 jax 的自动优化的结果。 此外,研究者基于现有结果探讨了未来的"实时"运行的 VLA 结构,设计出一个有潜力最高实现 480Hz 闭环控制的算法框架。目前,优化后的代码已在 GitHub 开 源,全部实现均打包为一个只依赖于 torch 和 triton 的单一文件,大家可在自己的项目里 "开箱即用"。这是 Dexmal 原力灵机 继 开源一站式 VLA 工具箱 Dexbotic 之后的又一开源代码工作。 解决什么痛点? 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 ...
智能驾驶深度报告:世界模型与VLA技术路线并行发展
国元证券· 2025-10-22 16:56
报告行业投资评级 - 报告未明确给出具体的行业投资评级 [1][2] 报告核心观点 - 智能驾驶行业正沿着"端到端"和"智驾平权"两大方向加速进化 [3][16] - 端到端智能驾驶技术已演进分化出VLA和世界模型两条核心并行发展路径 [64][69] - VLA技术路线适合快速迭代和现有量产平台兼容 世界模型路线则代表更底层的认知方式 强调物理规律和空间理解力 适合长期演进 [69] - 新能源车销量与智驾功能形成协同增长闭环 推动智能驾驶快速渗透 [9] 智能驾驶行业发展回顾 - 中国新能源车渗透率从2019年较低水平一路攀升 先后突破10%、30%、50%等关键关口 [9] - 中国新能源汽车L2级别智能驾驶功能渗透率从2019年的约7%起步 到2025H1已上升至65%左右 [9] - 2024年中国智能网联汽车产业规模已攀升至11082亿元 同比增长34% 预计到2030年产业规模有望突破5万亿元 [15] - 截至2025年6月 中国智能驾驶产业主体数量快速增长 注册相关企业总数已超过7000家 [15] 智驾沿"端到端"、"智驾平权"加速 - 高阶智驾功能搭载率从2024年1–4月的11.8%提升至2025年同期的18.6% [21] - 20–30万元价位段汽车的L2++智能驾驶功能搭载率从2024年Q1的25.15%升至2025年4–5月的47.11% 实现近乎翻倍增长 [27] - 头部自主品牌将智能驾驶价格门槛拉低 例如比亚迪秦PLUS智驾版售价11.98万元已搭载高速NOA功能 中长期目标是在10万元级别车型上实现高速NOA全面标配 [21] 端到端智能驾驶复盘 - 端到端自动驾驶架构演进分为四个主要阶段:感知"端到端"/"BEV+ transformer"、决策规划模型化/"占用网络"、模块化端到端/两段式端到端、OneModel/一段式端到端 [32] - BEV感知通过融合多传感器数据形成360°全方位无死角感知视野 结合Transformer注意力机制实现对关键区域聚焦处理 [37][41] - 占用网络通过对三维空间进行体素级划分与占用预测 构建更高精度的全局环境表示 能够识别未被标注的"泛目标" 提升系统环境理解力 [46] - 一段式端到端模型将传统"感知—规划—控制"流程统一映射到单一模型中 减少任务拆解带来的累积误差 但缺乏可解释性且需要海量高质量数据 [57][59] VLA技术路线 - VLA模型将视觉、语言与动作三大模态深度耦合 其核心流程可拆解为四步:环境感知、转化为语言Token、生成驾驶建议、转化为车辆控制轨迹 [69][76] - VLA技术落地的三大关键抓手包括:3D中间表征、长时序记忆、效率/能耗优化 [93] - VLA工程化难点包括:极端工况下的模型稳定性、长尾场景的泛化能力、多源数据的时序同步与时空一致性 [94][97] - VLA技术发展趋势围绕"空间—时间—成本"三条核心路径系统化演进:空间维度向高精度三维语义建模过渡 时间维度发展长时记忆与预测 成本维度通过MoE技术和模型蒸馏实现结构化算力优化 [111] 世界模型技术路线 - 世界模型是一类能够模拟和推演真实环境状态的生成式AI框架 通过对环境物理规律和因果关系的建模 实现对现实世界的"内在理解"与"主动推理" [117] - 世界模型的演进脉络分为三个阶段:Dyna算法奠定理论基础、《World Models》推动进入深度学习阶段、以Dreamer系列为代表的加速落地阶段 [121] - 世界模型在智能驾驶中的四大价值包括:大幅降低数据成本、升级安全标准、提升时空一致性、具备认知推理能力 [127][133] - 世界模型工程化难点包括:长期可扩展内存瓶颈、仿真与现实世界的差异、决策与责任机制缺失、隐私与数据安全挑战 [134][138] - 世界模型未来趋势是与强化学习深度结合 通过在虚拟环境中交互试错 使模型具备主动探索与优化能力 有效降低错误策略导致的安全风险与成本消耗 [144]
告别 “专家垄断”!AdaMoE 破解 VLA 模型效率与精度两难问题
具身智能之心· 2025-10-21 08:03
文章核心观点 - 上海交通大学等机构提出的AdaMoE架构通过解耦专家选择与权重分配,解决了视觉-语言-动作模型在机器人操控中面临的计算效率与任务精度难以兼顾的困境 [1] - 该架构在不增加计算负担的前提下,显著提升了任务成功率,仿真任务成功率提升近10%,真实场景操作成功率提升21.5% [1] - AdaMoE证明了机器人操控的精细度与效率并非单选题,为VLA模型的落地应用提供了新路径 [1][24] 传统VLA模型面临的挑战 - 传统模型想提升性能却受限于高昂的训练成本,收集精准的机器人演示数据困难,从头训练需耗费数百至上千GPU时 [2] - 模型在容量与效率间难以平衡,传统的密集模型需全参数激活,导致响应速度慢,而简化模型又会牺牲性能 [3] - 混合专家架构在VLA场景中出现“专家打架”问题,单一路由器同时负责专家选择和权重分配,难以兼顾负载均衡与任务精度 [5][11] AdaMoE的核心架构设计 - 设计直接继承预训练模型权重,无需从头训练,大幅降低了数据与计算成本 [8] - 采用稀疏激活策略,每次仅激活1个共享专家和1个路由专家,计算量仅为传统密集模型的1/5 [12] - 关键创新在于将路由模块与尺度适配器解耦,路由模块专司专家选择以实现负载均衡,尺度适配器独立调整专家贡献权重以保障任务精度 [12][17] - 共享专家负责通用基础动作,路由专家通过权重复制与微调专注于专项技能学习 [10] 实验验证与性能表现 - 在LIBERO和RoboTwin仿真基准上,AdaMoE平均成功率高达96.0%,优于传统密集模型的94.2%和传统MoE的94.9% [18][23] - 专家数量并非越多越好,实验表明4个专家(成功率96.0%)优于8个专家(成功率95.6%),体现了“少而精”的优势 [19] - 在真实世界ALOHA双臂机器人实验中,AdaMoE将平均成功率从50%提升至71.5%,尤其在“放透明杯子”任务中从40%提升至80% [22] - 解耦架构被证明优于耦合架构,AdaMoE(96.0%)在半解耦的CSMoE(95.5%)和传统MoE(94.9%)基础上实现了进一步提升 [18][21] 技术突破与行业意义 - 该研究为VLA模型指明了一条不依赖堆砌资源即可实现高效落地的技术路径 [24] - 架构实现了对预训练知识的有效利用、模型容量与计算效率的平衡以及专家间的协同优化 [26] - 证明了基于明确分工的协作方式是实现机器人高效操控的关键,对未来具身智能发展具有重要启示 [24]
辅助驾驶模型越做越大,小鹏、理想先进入70亿参数量级
36氪· 2025-10-15 18:15
车企AI辅助驾驶技术趋势 - 头部新势力车企正加速将AI大模型应用于车端辅助驾驶系统,小鹏汽车即将部署的车端大模型参数量至少为70亿,理想汽车明年自研芯片上车后车端模型参数也将达到70亿级,接近AI大模型的普遍参数量级 [1] 小鹏汽车AI布局 - 小鹏汽车采用知识蒸馏路线,正在研发720亿参数的云端“小鹏世界基座大模型”,并计划将其蒸馏压缩成70亿参数模型部署到车端 [2][3] - 为支持大模型上车,公司自研了专为AI需求设计的“图灵”AI辅助驾驶芯片,其AI算力约为700Tops,最高能处理300亿参数的大模型,该芯片已于2024年6月量产上市 [4] - 公司已将全部AI资源给到基座模型团队,以支持70亿参数的世界基座模型上车 [4] 理想汽车AI布局 - 理想汽车当前车端大模型参数量为40多亿,较此前端到端模型提升超过10倍,预计明年自研芯片上车后,车端VLA模型参数将达到70多亿 [5] - 公司已向所有AD MAX车型用户推送了VLA司机大模型,并为此将辅助驾驶团队拆分为11个二级部门,以更扁平的组织推进AI研发 [5][6] - 理想汽车将自身重新定义为一家人工智能企业,视汽车为人工智能时代的空间机器人 [9] 行业技术路径对比 - 特斯拉、地平线、Momenta等企业凭借端到端技术实现了领先的辅助驾驶表现,例如特斯拉实现了区域Robotaxi,这表明更少的车端模型参数量也可能取得更好效果 [7] - AI模型参数量级与辅助驾驶效果无必然关系,辅助驾驶核心在于空间感知,大模型的逻辑推理能力仅在少数场景下适用 [8] - 若车企未做好端到端体验就盲目上大参数模型,可能导致大部分算力资源用于语言推理,反而造成辅助驾驶体验倒退 [8] 车企追逐AI的驱动因素 - 部分车企旨在将辅助驾驶能力迁移至更广阔的具身智能领域,例如小鹏计划将图灵芯片用于AI机器人和飞行汽车,理想将汽车定义为空间机器人 [9][10] - 对AI大模型的追逐也带有营销目的,AI大模型因其破圈效应成为行业热词,车企以此抢占舆论高地 [11]
斯坦福、英伟达和伯克利提出具身Test-Time Scaling Law
机器之心· 2025-10-14 14:33
研究核心观点 - Vision-Language-Action模型在推理阶段结合生成-验证范式可显著提升泛化能力与可靠性[2] - 研究揭示了具身智能中的Test-Time Scaling Law:随着推理阶段采样与验证规模增长,模型任务成功率和稳定性呈现可预测的提升规律[2] - 该方法能在不改动训练模型的前提下显著提升性能,为通用机器人模型提供更稳健的落地路径[5] 方法论概述 - 方法分为两个阶段:动作验证器训练和推理阶段的计算扩展[8][9] - 阶段一利用机器人数据集采样候选动作并构造合成偏好数据,用以微调一个基于VLM的动作验证器[8] - 阶段二在部署时采样多个初始动作,拟合高斯分布并利用训练好的验证器评估排序,挑选最优动作执行[12] 实验发现与性能提升 - 当增加推理阶段候选动作的生成数量时,VLA的动作误差会持续下降[5] - 在多种主流VLA模型中,动作误差与高斯扰动采样数量之间呈现出稳定的幂律关系[5] - 将VLA模型与RoboMonkey结合可在真实世界out-of-distribution tasks上提升性能25%,在in-distribution SIMPLER环境上提升9%,在LIBERO-Long benchmark上提升7%[17] - 扩展合成数据集规模对验证器性能有显著提升作用,验证器准确性呈近似对数线性增长[16] 系统实现与部署 - 研究团队在SGLang之上实现了专用的VLA serving引擎,支持高速的VLA动作重复采样[19] - 系统通过高斯扰动高效构建动作分布,显著降低了推理阶段的开销[19] - 在相同延迟约束下,配备更大容量高带宽存储器的GPU能够支持更高吞吐量,进一步提升机器人基础模型的泛化能力[19]
LightVLA:你的VLA真的可以又强又快!
具身智能之心· 2025-10-14 08:02
点击下方 卡片 ,关注" 具身智能 之心 "公众号 >>直播和内容获取转到 → 具身智能之心知识星球 论文链接 : https://arxiv.org/abs/2509.12594 项目主页 : https://liauto-research.github.io/LightVLA/ 点击按钮预约直播 LightVLA是一种面向视觉-语言-动作(VLA)模型的、简单而有效的可微分token剪枝框架。尽管VLA模型在执行真实世界机器人任务中展现出卓越能力,但其在资 源受限平台上的部署往往受限于基于注意力机制的海量视觉token计算开销。 LightVLA通过自适应、性能驱动的视觉token剪枝攻克这一难题 : 它生成动态查询以评估视觉token的重要性,并采用Gumbel softmax实现可微分的token选择。经 过微调,LightVLA学会在执行任务时保留信息量最大的视觉token,同时剔除无关token,从而实现效率与性能的双重提升 。尤为关键的是, LightVLA无需依赖启 发式的"魔术数字"且不引入额外可训练参数,使其能够兼容现代推理框架。 实验结果表明,在LIBERO基准测试的多种任务中,Ligh ...
小鹏智驾一把手换人,蔚来团队大调整,各有各的算盘
36氪· 2025-10-10 20:30
小鹏汽车智驾负责人更迭 - 小鹏汽车自动驾驶中心负责人李力耘因身体原因暂时休息,不再担任该职务 [1][2] - 原世界基座模型负责人刘先明接任自动驾驶中心组织负责人,全面负责中心业务和组织管理工作,向何小鹏汇报 [2][3][9] - 刘先明于2024年3月加入小鹏汽车,担任AI团队负责人,入职仅一年多即晋升为智驾一号位 [6][8] - 刘先明博士毕业于伊利诺伊大学厄巴纳-香槟分校,曾在Facebook和Cruise任职,聚焦机器学习与计算机视觉领域 [6] - 小鹏汽车自动驾驶业务在5年内出现3次掌权人更迭,从吴新宙到李力耘,再到刘先明 [10][11][12] 小鹏汽车技术路线转向 - 公司官方回应指出,自动驾驶VLA大模型只是世界基座模型的应用,核心是让模型具备推演世界的能力 [13] - 刘先明此前为世界基座模型负责人,其晋升信号着小鹏将加速物理世界基座大模型在AI汽车领域的全面应用 [13] - 小鹏汽车于2024年4月提出“世界基座模型”路线,并在6月CVPR顶会上首次对外展示技术细节 [13] - 该世界模型参数规模高达720亿(72B),是行业主流VLA模型的35倍以上,训练数据超过2000万条视频片段(每条30秒) [14] - 公司认为“大算力 + 物理世界大模型 + 大数据”将定义未来AI汽车能力上限,该模型是走向L3、L4的基础 [13][16] 行业竞争与蔚来人事变动 - 蔚来智驾团队同期发生人事变动,世界模型负责人马宁宁、智驾产品负责人黄鑫等多位核心高管离职 [2][19] - 蔚来回应称此为主动组织架构调整,旨在构建新管理模式以全力冲刺世界模型2.0版本的开发与交付 [2][19] - 行业技术路线出现分岔,主流分为VLA(视觉-语言-动作)与世界模型(World Model + Action)两派 [17] - VLA路线的代表企业是理想和小鹏,世界模型路线的代表企业是华为和蔚来 [17] - 理想汽车上月亦调整自动驾驶团队,将智驾团队拆分为11个二级部门以推进AI大模型研发 [19] 小鹏智驾业务进展 - 李力耘在任期间带队完成了城市NGP在国内数百座城市落地,并推动“端到端”智驾方案在行车全功能量产上线 [12] - 刘先明加入小鹏后,其AI研究已同时为芯片、具身团队提供必要软件支持,显示出较强的业务能力 [7][8] - 小鹏世界基座模型未来将全面赋能公司AI体系全图谱,包括AI汽车、AI机器人、飞行汽车 [16]