Workflow
RTX 4090 GPU
icon
搜索文档
Dexmal原力灵机发布实时VLA模型!消费级显卡上完成pi0模型30Hz以上推理
具身智能之心· 2025-11-04 08:05
核心观点 - 研究团队提出并验证了一套针对十亿参数级别视觉-语言-动作模型的实时推理优化方案,在单块消费级RTX 4090 GPU上实现了30Hz图像处理与最高480Hz动作生成的性能,突破了传统VLA模型因高延迟而无法应用于动态任务的瓶颈 [3][23][37] 核心优化策略 - 通过四步优化流程将2视图模型的推理时间从初始的106.5毫秒降低至27.3毫秒,满足了实时推理所需的33毫秒阈值 [7][10][22] - 第一步消除基础开销:使用CUDA Graph技术将内核启动开销减半,使推理时间从106.5毫秒降至约53.9毫秒;通过简化计算图进一步降至约45.8毫秒 [9][10][12][14] - 第二步内核深度优化:针对GEMM操作进行底层优化,包括RMS归一化权重折叠、动作-时间嵌入层折叠、QKV投影融合等,并利用Triton框架手动调整tile参数,累计减少约1.5毫秒推理时间 [16][18] - 第三步性能下界验证:通过Roofline模型计算得出理论最低时间为19.7毫秒,叠加同步开销后理论下界为20.6毫秒,实际实现27.3毫秒的差距仅30%,表明优化已接近硬件理论极限 [20][21][22] 全流推理框架 - 提出全流推理框架,通过VLM与动作专家的并发执行,在1秒内可并行运行30个VLM与480个动作专家,实现480Hz的轨迹生成频率 [23][27][30] - 重构动作专家角色,将其从“批量输出”改为“逐步生成”模式,并结合高频传感器数据实时调整动作,确保低延迟响应 [28][30] - 设计三层反馈环:480Hz力环用于紧急停止等快速反应,30Hz视觉环实现图像驱动的动作调整,<1Hz文本环用于任务规划等低速智能场景 [29][30] 真实世界验证 - 通过抓取下落钢笔的实验验证实时VLA的有效性,在200毫秒的时间约束下,10次连续实验成功率达到100%,与人类反应速度相当 [29][32][36] - 实验证明大参数VLA模型在完成此类动态任务时具备泛化优势,可直接迁移至更复杂的动态任务而无需重新设计模型结构 [36]