RTX 4090 GPU - 财报，业绩电话会，研报，新闻

RTX 4090 GPU

搜索文档

Dexmal原力灵机发布实时VLA模型！消费级显卡上完成pi0模型30Hz以上推理

具身智能之心· 2025-11-04 08:05

核心观点 - 研究团队提出并验证了一套针对十亿参数级别视觉-语言-动作模型的实时推理优化方案，在单块消费级RTX 4090 GPU上实现了30Hz图像处理与最高480Hz动作生成的性能，突破了传统VLA模型因高延迟而无法应用于动态任务的瓶颈 [3][23][37] 核心优化策略 - 通过四步优化流程将2视图模型的推理时间从初始的106.5毫秒降低至27.3毫秒，满足了实时推理所需的33毫秒阈值 [7][10][22] - 第一步消除基础开销：使用CUDA Graph技术将内核启动开销减半，使推理时间从106.5毫秒降至约53.9毫秒；通过简化计算图进一步降至约45.8毫秒 [9][10][12][14] - 第二步内核深度优化：针对GEMM操作进行底层优化，包括RMS归一化权重折叠、动作-时间嵌入层折叠、QKV投影融合等，并利用Triton框架手动调整tile参数，累计减少约1.5毫秒推理时间 [16][18] - 第三步性能下界验证：通过Roofline模型计算得出理论最低时间为19.7毫秒，叠加同步开销后理论下界为20.6毫秒，实际实现27.3毫秒的差距仅30%，表明优化已接近硬件理论极限 [20][21][22] 全流推理框架 - 提出全流推理框架，通过VLM与动作专家的并发执行，在1秒内可并行运行30个VLM与480个动作专家，实现480Hz的轨迹生成频率 [23][27][30] - 重构动作专家角色，将其从“批量输出”改为“逐步生成”模式，并结合高频传感器数据实时调整动作，确保低延迟响应 [28][30] - 设计三层反馈环：480Hz力环用于紧急停止等快速反应，30Hz视觉环实现图像驱动的动作调整，<1Hz文本环用于任务规划等低速智能场景 [29][30] 真实世界验证 - 通过抓取下落钢笔的实验验证实时VLA的有效性，在200毫秒的时间约束下，10次连续实验成功率达到100%，与人类反应速度相当 [29][32][36] - 实验证明大参数VLA模型在完成此类动态任务时具备泛化优势，可直接迁移至更复杂的动态任务而无需重新设计模型结构 [36]

具身智能

视觉 - 语言 - 动作（VLA）模型

Artificial Intelligence

Artificial Intelligence

实时VLA模型

RTX 4090 GPU