实时运行VLA模型 - 财报，业绩电话会，研报，新闻 - Reportify

实时运行VLA模型

搜索文档

单张4090跑到30fps，范浩强团队让VLA实时跑起来了

具身智能之心· 2025-11-02 00:03

文章核心观点 - 研究团队通过深度优化，成功将30亿参数的VLA大模型Pi0在单张RTX 4090显卡上的推理速度提升至30fps，远快于行业普遍认知的百毫秒级别延迟 [1] - 优化后的代码已开源，并基于此成果设计出有潜力实现480Hz闭环控制的下一代机器人实时控制算法框架 [2] - 该技术突破解决了机器人VLA大模型因高延迟而难以实现实时控制的核心痛点，为具身智能的实时应用打开了新的大门 [5][16] 技术性能突破 - 针对Pi0模型（30亿参数），在单张消费级显卡RTX 4090上最快可达到30fps的推理速度 [1] - 针对双视角输入，模型推理时间从初始的100+毫秒被优化至27毫秒，实现了数倍的性能提升 [1] - 优化后的模型在抓取自由落体笔的任务中，端到端总反应时间被缩短到200毫秒以内，媲美人类表现 [11] 技术实现方法 - 通过深入分析Pi0模型结构，将其分解为视觉编码器、编码器和解码器，并进一步拆解为矩阵乘法和标量运算 [8] - 针对Transformer模型单次推理时产生的大量零碎“矩阵计算小任务”，研究者融合和并行优化了每一个计算步骤 [9] - 优化代码全部实现均打包为一个只依赖于torch和triton的单一文件，已在GitHub开源 [2] 未来框架与展望 - 设计了一套完整的、围绕GPU打造的机器人控制框架，能驱动VLA大模型进行流式实时控制 [13] - 该框架规划最高能以480Hz的频率生成机器人控制信号，已达到基于力反馈进行控制的门槛 [13] - 框架为机器人设计了三种不同速度的“反应神经”：超快反应（480Hz）、视觉反应（30Hz）和智能思考（<1Hz） [15] - 对未来发展提出关键问题，包括视觉处理帧率从30fps向120fps提升、模型参数从3B向更大规模扩展、以及反馈回路向亚毫秒级迈进的可能性 [19]

实时运行VLA模型

实时运行VLA模型