VLA模型 - 财报，业绩电话会，研报，新闻

VLA模型

搜索文档

观察者网· 2025-11-05 15:55

近日，观察者网查阅字节跳动招聘官网发现，字节跳动旗下火山引擎团队启动了一项高规格招聘，寻求"操作算法资深专家（具身智能）"，该岗位明确专注于"人形具身机器人"的研发，月薪待遇高达95-120K（即每月 9.5 万至 12 万元人民币）。相关招聘信息截图据招聘信息显示，该职位并非机器人算法岗位，而是锁定于"人形具身机器人"。从职位描述上看，该岗位需要主导人形具身机器人操作算法（含架构、抓取、VLA 模型、灵巧手等）研发，参与具身大模型的训练、评测及部署，推动算法系统集成、仿真验证与硬件部署以优化嵌入式性能，探索其在工业、服务等场景的技术应用与落地并输出高可用方案，同时参与机器人自主系统软件架构设计、数据采集技术研发，与团队协作解决跨领域复杂技术难题。从职位要求上看，岗位要求任职者需具备计算机科学、自动化等相关领域硕士 / 博士学历或同等工业实践经验，熟悉 VLM/VLA 主流技术（如 BERT、CLIP 等）与多模态大模型开发，具备强化学习、扩散模型等在抓取和物体操控的实践经验，熟悉机器人感知、场景理解及机械臂经典控制算法，熟练掌握至少一种主流机器人仿真工具（如 Isaac Sim、MuJoCo ...

观察者网· 2025-11-05 15:17

从DriveVLA-W0出发：探讨世界模型如何放大VLA的扩展定律（中科院）

自动驾驶之心· 2025-11-04 08:03

技术挑战与解决方案 - 自动驾驶视觉-语言-动作模型面临“监督缺失”问题，其庞大模型能力仅由稀疏、低维的动作信号监督，导致大部分表征潜力未被充分利用[3] - 中科院和华为引望团队提出DriveVLA-W0训练范式，利用世界模型预测未来图像以解决监督缺失问题[3] - 针对离散视觉token的VLA模型设计自回归世界模型，针对连续视觉特征的VLA模型设计扩散世界模型[3] - 基于世界建模学习的丰富表征，引入轻量级动作专家以解决实时部署中的推理耗时问题[3] 模型性能与数据规模效应 - 在NAVSIM v1/v2基准测试和规模大680倍的内部数据集上，DriveVLA-W0显著优于BEV和VLA基线方法[5] - 该技术放大了数据Scaling Law效果，表明随着训练数据集规模增大，性能提升速度会加快[5] - 模型在7000万帧数据上真正放大了VLA的数据扩展定律[8] 技术架构与应用前景 - DriveVLA-W0通过世界模型提供稠密自监督，实现从“监督赤字”到“定律放大”的转变[9] - 该研究为构建更通用的驾驶智能提供了充满前景的道路[3] - 技术分享重点涵盖自动驾驶VLA的“监督赤字”挑战、世界模型破解稀疏监督的方法以及DriveVLA-W0的架构与性能[12]

具身智能之心· 2025-11-03 08:03

作者丨量子位点击下方卡片，关注" 具身智能之心 "公众号 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。 ICLR 2026爆火领域VLA（Vision-Language-Action，视觉-语言-动作）全面综述来了！如果你还不了解VLA是什么，以及这个让机器人学者集体兴奋的领域进展如何，看这一篇就够了。文章作者 Moritz Reuss 是2025年Apple AI/ML学者奖得主，曾在RSS、ICLR、NeurIPS等顶级会议多次发表研究成果。这篇综述既是一线研究者的实战总结，也是洞察趋势的前沿观察。文章一出，评论区好评不断，甚至顶级猎头Mark Wallace直接抛出了橄榄枝。这个VLA，究竟有多火？据统计， VLA模型相关投稿量，从去年的个位数飙升至164篇，足足增长了18倍。这股热潮背后，让机器人 "听懂人话、看懂世界、动手干活" ，正成为AI领域极具吸引力的前沿阵地。然而，在这片繁荣之下，一个问题也随之浮现：当我们谈论VLA的进步时，我们到底在谈论什么？ VLA ...

边缘设备上高效运行！NanoVLA ：保留 VLA 模型的精度与泛化能力，推理速度提升 52 倍

具身智能之心· 2025-11-02 00:03

文章核心观点 - NanoVLA模型通过创新的“视觉-语言解耦融合+长短动作分块+动态路由”架构，解决了通用视觉-语言-动作模型在边缘设备上部署时“通用化”与“轻量化”的矛盾 [2] - 该模型在保持甚至超越现有大型VLA模型任务精度与泛化能力的同时，将推理速度提升52倍，参数量压缩98%，首次实现在资源受限的边缘设备上高效运行通用机器人策略的目标 [2][19][32] 技术瓶颈与解决思路 - 传统VLA模型存在三大设计瓶颈：模态融合冗余导致高延迟、动作执行僵硬导致运动失准、模型容量错配导致资源浪费与性能不足并存 [3] - NanoVLA的突破思路并非单纯缩小模型，而是重构推理逻辑，通过解耦静态指令与动态视觉、分阶段规划动作、自适应选择骨干网络，实现计算资源的“按需分配” [3] 核心架构模块 - **视觉-语言解耦融合与缓存**：分离模态编码并延迟融合时机，对静态指令特征进行缓存复用，仅需动态更新视觉嵌入，使计算量减少62% [8][12] - **长短动作分块**：训练时学习长序列依赖以保证动作连贯性，推理时执行短窗口并结合高频环境反馈重新规划，在LIBERO长任务中成功率比固定长序列执行高16%，动作抖动减少30% [9][11][13][14] - **动态路由**：引入轻量级路由器，根据任务复杂度自适应选择轻量或重量级骨干网络，使简单任务中轻量骨干使用占比超80%，平均参数量降至296M，仅为OpenVLA的4% [15][18][21] 性能表现 - **模拟基准测试**：在LIBERO基准上，NanoVLA-R版本取得84.1%的平均成功率，比7.5B参数量的OpenVLA高7.6%，比450M参数量的SmolVLA高5.5% [20] - **真实机器人测试**：在搭载Jetson Orin Nano的LeRobot机器人上，NanoVLA在12类真实任务中的平均成功率达85.6%，超越OpenVLA的80.4% [26] - **边缘设备效率**：在Jetson Orin Nano上，NanoVLA-R的推理速度达到41.6 FPS，是OpenVLA（0.8 FPS）的52倍，同时在LIBERO-Goal任务上成功率提升8个百分点 [22][29] 行业意义与未来方向 - NanoVLA为通用机器人策略的边缘部署提供了不牺牲精度的轻量化路径，其架构范本可直接复用于工业巡检、家庭服务、嵌入式操控等产业化场景 [30][32] - 未来技术演进方向包括融入触觉/力觉等多模态信号以提升操作精度、通过知识蒸馏实现端到端轻量化、以及扩展适配双臂、移动机器人等多机器人形态 [31]

单张4090跑到30fps，范浩强团队让VLA实时跑起来了

具身智能之心· 2025-11-02 00:03

编辑丨机器之心点击下方卡片，关注" 具身智能之心 "公众号 >> 点击进入→ 具身智能之心技术交流群具体而言，对于常用的 Pi0 级别的模型（30 亿参数），在单张消费级显卡 RTX 4090 上最快可以跑到 30fps。这和大家对于 VLA 模型动辄要几十甚至上百毫秒的刻板印象形成鲜明对比。为实现这点，研究者深入分析 Pi0 的模型结构，通过一系列优化把用时从开始的 100+ ms 进行数倍缩减（针对双视角，甚至已经达到 27ms），显著强于 openpi 里采用的基于 jax 的自动优化的结果。此外，研究者基于现有结果探讨了未来的"实时"运行的 VLA 结构，设计出一个有潜力最高实现 480Hz 闭环控制的算法框架。目前，优化后的代码已在 GitHub 开源，全部实现均打包为一个只依赖于 torch 和 triton 的单一文件，大家可在自己的项目里 "开箱即用"。这是 Dexmal 原力灵机继开源一站式 VLA 工具箱 Dexbotic 之后的又一开源代码工作。解决什么痛点？更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有 ...

智能驾驶深度报告：世界模型与VLA技术路线并行发展

国元证券· 2025-10-22 16:56

报告行业投资评级 - 报告未明确给出具体的行业投资评级 [1][2] 报告核心观点 - 智能驾驶行业正沿着"端到端"和"智驾平权"两大方向加速进化 [3][16] - 端到端智能驾驶技术已演进分化出VLA和世界模型两条核心并行发展路径 [64][69] - VLA技术路线适合快速迭代和现有量产平台兼容世界模型路线则代表更底层的认知方式强调物理规律和空间理解力适合长期演进 [69] - 新能源车销量与智驾功能形成协同增长闭环推动智能驾驶快速渗透 [9] 智能驾驶行业发展回顾 - 中国新能源车渗透率从2019年较低水平一路攀升先后突破10%、30%、50%等关键关口 [9] - 中国新能源汽车L2级别智能驾驶功能渗透率从2019年的约7%起步到2025H1已上升至65%左右 [9] - 2024年中国智能网联汽车产业规模已攀升至11082亿元同比增长34% 预计到2030年产业规模有望突破5万亿元 [15] - 截至2025年6月中国智能驾驶产业主体数量快速增长注册相关企业总数已超过7000家 [15] 智驾沿"端到端"、"智驾平权"加速 - 高阶智驾功能搭载率从2024年1–4月的11.8%提升至2025年同期的18.6% [21] - 20–30万元价位段汽车的L2++智能驾驶功能搭载率从2024年Q1的25.15%升至2025年4–5月的47.11% 实现近乎翻倍增长 [27] - 头部自主品牌将智能驾驶价格门槛拉低例如比亚迪秦PLUS智驾版售价11.98万元已搭载高速NOA功能中长期目标是在10万元级别车型上实现高速NOA全面标配 [21] 端到端智能驾驶复盘 - 端到端自动驾驶架构演进分为四个主要阶段：感知"端到端"/"BEV+ transformer"、决策规划模型化/"占用网络"、模块化端到端/两段式端到端、OneModel/一段式端到端 [32] - BEV感知通过融合多传感器数据形成360°全方位无死角感知视野结合Transformer注意力机制实现对关键区域聚焦处理 [37][41] - 占用网络通过对三维空间进行体素级划分与占用预测构建更高精度的全局环境表示能够识别未被标注的"泛目标" 提升系统环境理解力 [46] - 一段式端到端模型将传统"感知—规划—控制"流程统一映射到单一模型中减少任务拆解带来的累积误差但缺乏可解释性且需要海量高质量数据 [57][59] VLA技术路线 - VLA模型将视觉、语言与动作三大模态深度耦合其核心流程可拆解为四步：环境感知、转化为语言Token、生成驾驶建议、转化为车辆控制轨迹 [69][76] - VLA技术落地的三大关键抓手包括：3D中间表征、长时序记忆、效率/能耗优化 [93] - VLA工程化难点包括：极端工况下的模型稳定性、长尾场景的泛化能力、多源数据的时序同步与时空一致性 [94][97] - VLA技术发展趋势围绕"空间—时间—成本"三条核心路径系统化演进：空间维度向高精度三维语义建模过渡时间维度发展长时记忆与预测成本维度通过MoE技术和模型蒸馏实现结构化算力优化 [111] 世界模型技术路线 - 世界模型是一类能够模拟和推演真实环境状态的生成式AI框架通过对环境物理规律和因果关系的建模实现对现实世界的"内在理解"与"主动推理" [117] - 世界模型的演进脉络分为三个阶段：Dyna算法奠定理论基础、《World Models》推动进入深度学习阶段、以Dreamer系列为代表的加速落地阶段 [121] - 世界模型在智能驾驶中的四大价值包括：大幅降低数据成本、升级安全标准、提升时空一致性、具备认知推理能力 [127][133] - 世界模型工程化难点包括：长期可扩展内存瓶颈、仿真与现实世界的差异、决策与责任机制缺失、隐私与数据安全挑战 [134][138] - 世界模型未来趋势是与强化学习深度结合通过在虚拟环境中交互试错使模型具备主动探索与优化能力有效降低错误策略导致的安全风险与成本消耗 [144]

告别 “专家垄断”！AdaMoE 破解 VLA 模型效率与精度两难问题

具身智能之心· 2025-10-21 08:03

文章核心观点 - 上海交通大学等机构提出的AdaMoE架构通过解耦专家选择与权重分配，解决了视觉-语言-动作模型在机器人操控中面临的计算效率与任务精度难以兼顾的困境 [1] - 该架构在不增加计算负担的前提下，显著提升了任务成功率，仿真任务成功率提升近10%，真实场景操作成功率提升21.5% [1] - AdaMoE证明了机器人操控的精细度与效率并非单选题，为VLA模型的落地应用提供了新路径 [1][24] 传统VLA模型面临的挑战 - 传统模型想提升性能却受限于高昂的训练成本，收集精准的机器人演示数据困难，从头训练需耗费数百至上千GPU时 [2] - 模型在容量与效率间难以平衡，传统的密集模型需全参数激活，导致响应速度慢，而简化模型又会牺牲性能 [3] - 混合专家架构在VLA场景中出现“专家打架”问题，单一路由器同时负责专家选择和权重分配，难以兼顾负载均衡与任务精度 [5][11] AdaMoE的核心架构设计 - 设计直接继承预训练模型权重，无需从头训练，大幅降低了数据与计算成本 [8] - 采用稀疏激活策略，每次仅激活1个共享专家和1个路由专家，计算量仅为传统密集模型的1/5 [12] - 关键创新在于将路由模块与尺度适配器解耦，路由模块专司专家选择以实现负载均衡，尺度适配器独立调整专家贡献权重以保障任务精度 [12][17] - 共享专家负责通用基础动作，路由专家通过权重复制与微调专注于专项技能学习 [10] 实验验证与性能表现 - 在LIBERO和RoboTwin仿真基准上，AdaMoE平均成功率高达96.0%，优于传统密集模型的94.2%和传统MoE的94.9% [18][23] - 专家数量并非越多越好，实验表明4个专家（成功率96.0%）优于8个专家（成功率95.6%），体现了“少而精”的优势 [19] - 在真实世界ALOHA双臂机器人实验中，AdaMoE将平均成功率从50%提升至71.5%，尤其在“放透明杯子”任务中从40%提升至80% [22] - 解耦架构被证明优于耦合架构，AdaMoE（96.0%）在半解耦的CSMoE（95.5%）和传统MoE（94.9%）基础上实现了进一步提升 [18][21] 技术突破与行业意义 - 该研究为VLA模型指明了一条不依赖堆砌资源即可实现高效落地的技术路径 [24] - 架构实现了对预训练知识的有效利用、模型容量与计算效率的平衡以及专家间的协同优化 [26] - 证明了基于明确分工的协作方式是实现机器人高效操控的关键，对未来具身智能发展具有重要启示 [24]

辅助驾驶模型越做越大，小鹏、理想先进入70亿参数量级

36氪· 2025-10-15 18:15

车企AI辅助驾驶技术趋势 - 头部新势力车企正加速将AI大模型应用于车端辅助驾驶系统，小鹏汽车即将部署的车端大模型参数量至少为70亿，理想汽车明年自研芯片上车后车端模型参数也将达到70亿级，接近AI大模型的普遍参数量级 [1] 小鹏汽车AI布局 - 小鹏汽车采用知识蒸馏路线，正在研发720亿参数的云端“小鹏世界基座大模型”，并计划将其蒸馏压缩成70亿参数模型部署到车端 [2][3] - 为支持大模型上车，公司自研了专为AI需求设计的“图灵”AI辅助驾驶芯片，其AI算力约为700Tops，最高能处理300亿参数的大模型，该芯片已于2024年6月量产上市 [4] - 公司已将全部AI资源给到基座模型团队，以支持70亿参数的世界基座模型上车 [4] 理想汽车AI布局 - 理想汽车当前车端大模型参数量为40多亿，较此前端到端模型提升超过10倍，预计明年自研芯片上车后，车端VLA模型参数将达到70多亿 [5] - 公司已向所有AD MAX车型用户推送了VLA司机大模型，并为此将辅助驾驶团队拆分为11个二级部门，以更扁平的组织推进AI研发 [5][6] - 理想汽车将自身重新定义为一家人工智能企业，视汽车为人工智能时代的空间机器人 [9] 行业技术路径对比 - 特斯拉、地平线、Momenta等企业凭借端到端技术实现了领先的辅助驾驶表现，例如特斯拉实现了区域Robotaxi，这表明更少的车端模型参数量也可能取得更好效果 [7] - AI模型参数量级与辅助驾驶效果无必然关系，辅助驾驶核心在于空间感知，大模型的逻辑推理能力仅在少数场景下适用 [8] - 若车企未做好端到端体验就盲目上大参数模型，可能导致大部分算力资源用于语言推理，反而造成辅助驾驶体验倒退 [8] 车企追逐AI的驱动因素 - 部分车企旨在将辅助驾驶能力迁移至更广阔的具身智能领域，例如小鹏计划将图灵芯片用于AI机器人和飞行汽车，理想将汽车定义为空间机器人 [9][10] - 对AI大模型的追逐也带有营销目的，AI大模型因其破圈效应成为行业热词，车企以此抢占舆论高地 [11]

斯坦福、英伟达和伯克利提出具身Test-Time Scaling Law

机器之心· 2025-10-14 14:33

研究核心观点 - Vision-Language-Action模型在推理阶段结合生成-验证范式可显著提升泛化能力与可靠性[2] - 研究揭示了具身智能中的Test-Time Scaling Law：随着推理阶段采样与验证规模增长，模型任务成功率和稳定性呈现可预测的提升规律[2] - 该方法能在不改动训练模型的前提下显著提升性能，为通用机器人模型提供更稳健的落地路径[5] 方法论概述 - 方法分为两个阶段：动作验证器训练和推理阶段的计算扩展[8][9] - 阶段一利用机器人数据集采样候选动作并构造合成偏好数据，用以微调一个基于VLM的动作验证器[8] - 阶段二在部署时采样多个初始动作，拟合高斯分布并利用训练好的验证器评估排序，挑选最优动作执行[12] 实验发现与性能提升 - 当增加推理阶段候选动作的生成数量时，VLA的动作误差会持续下降[5] - 在多种主流VLA模型中，动作误差与高斯扰动采样数量之间呈现出稳定的幂律关系[5] - 将VLA模型与RoboMonkey结合可在真实世界out-of-distribution tasks上提升性能25%，在in-distribution SIMPLER环境上提升9%，在LIBERO-Long benchmark上提升7%[17] - 扩展合成数据集规模对验证器性能有显著提升作用，验证器准确性呈近似对数线性增长[16] 系统实现与部署 - 研究团队在SGLang之上实现了专用的VLA serving引擎，支持高速的VLA动作重复采样[19] - 系统通过高斯扰动高效构建动作分布，显著降低了推理阶段的开销[19] - 在相同延迟约束下，配备更大容量高带宽存储器的GPU能够支持更高吞吐量，进一步提升机器人基础模型的泛化能力[19]

具身Test-Time Scaling Law

幂律规律

人工智能

VLA模型

具身Test-Time Scaling Law