Workflow
AutoDRRT 3.0
icon
搜索文档
78ms的VLA推理!浪潮信息开源自驾加速计算框架,大幅降低推理时延
自动驾驶之心· 2026-01-05 11:33
行业趋势:VLA大模型成为高阶自动驾驶关键方向 - 随着高阶自动驾驶迈向“端到端”阶段,VLA(视觉-语言-动作)大模型正成为自动驾驶的最佳模型方案,它通过统一建模视觉感知、语义理解与逻辑决策,使系统具备类似人类的语义理解与推理能力,是突破自动驾驶“长尾场景”挑战的关键 [2] - 然而,VLA大模型参数规模已增长至数十亿甚至百亿级,多模态数据在异构算力间流转处理时,模型延时普遍超过100ms,难以满足实时性需求,亟需软硬件系统优化来解决车载端异构计算协同问题 [2][5] 技术挑战:VLA大模型车端部署面临三大瓶颈 - **计算挑战**:模型参数从千万级跃迁至数十亿甚至百亿级,对算力、存储带宽与系统协同效率提出空前挑战;其推理过程呈现多阶段强依赖特征,时延呈串行累积;Transformer架构的自注意力计算复杂度随序列长度指数增长,且自回归生成导致动作指令必须串行产出,限制了硬件并行度;数十亿级参数量导致芯片频繁访存,受限于端侧内存带宽,计算单元常因“等数据”而空转 [5][6] - **通信挑战**:与传统模块化系统相比,VLA大模型对数据通信的压力呈指数级增长,多模态特征、高清图像及中间张量频繁在不同计算单元间流转;端到端闭环对时延极为敏感,传统基于中间件的通信机制(如多次拷贝、序列化与协议栈开销)成为制约实时性的核心瓶颈 [6] - **调度挑战**:VLA大模型的执行过程具有明显的异构性与阶段性特征,不同子任务在实时性、计算量与优先级上差异显著;传统以线程或进程为粒度的粗放式调度方式,难以应对多任务并发、强优先级约束与异构算力协同的需求,容易导致关键任务阻塞、算力资源空转或端到端时延不可预测 [7] 解决方案:AutoDRRT 3.0计算加速框架 - 浪潮信息研究团队开源了面向VLA大模型的自动驾驶计算加速框架AutoDRRT 3.0,该框架基于其自动驾驶车载计算平台EIS400,通过在计算效率、通信延时、任务调度三大维度的创新重构,旨在解决VLA大模型的上车挑战 [3][8] - 该框架面向2D+CNN小模型、BEV+Transformer大模型、VLA大模型等不同算法进行了针对性的算法内核与架构升级,汽车厂商、软件平台商和中间件软件开发商可免费下载使用 [3] 技术突破一:计算革新实现全闭环加速 - 通过并行解码、视觉剪枝、算子融合与混合量化等技术,对VLA推理链路进行重构,实现了从“视觉输入”到“动作输出”的全闭环加速 [9][12] - **并行解码**:将单步预测演进为“时域序列预测”,在一个推理周期内并行产出未来多步动作指令,消除了逐个Token产出的逻辑依赖,释放了异构硬件的并行计算潜能 [12] - **视觉剪枝**:引入面向自动驾驶场景的视觉剪枝技术,通过衡量特征向量间的余弦距离,在无须模型微调的前提下,实现了对冗余视觉信息的极高比例压缩,解决了传统注意力剪枝可能导致关键感知目标被误剔除的风险 [12] - **算子融合与混合量化**:实施异构精度策略,对视觉Transformer实施INT8 PTQ量化以提升吞吐,对语言内核采用W4A16量化以突破访存带宽瓶颈;同时进行深度算子融合,并将部分高频操作前移至预处理阶段,消除冗余计算 [12] - 通过上述优化,成功将10亿级参数VLA大模型的端到端推理时延从8000ms降低到78ms,其中并行解码模块将时延从2000ms降低至300ms,视觉剪枝模块将时延从170ms降低至130ms,整体性能提升102倍,这是业内首个将VLA大模型端到端推理时延稳定压缩至100ms以内的开源计算加速框架 [13] 技术突破二:通信革新构建高性能机制 - 从底层重构了面向异构计算单元(CPU-CPU、CPU-GPU、GPU-GPU)的统一高性能通信机制,构建了“轻量调度+极速流转”的混合模式 [14][16] - “轻量调度模式”专注于微秒级的逻辑信令通路,用于精细调度与同步唤醒;“极速模式”为大数据提供共享内存,从根本上革除了传统DDS协议中的序列化损耗与冗余拷贝 [16] - 通过地址映射实现CPU与GPU之间的数据直达,在GPU之间构建以共享内存为中枢的高速流转机制,实现了以“地址共享替代数据搬运”的“零拷贝”闭环 [16] - 在1MB至16MB的负载测试中,AutoDRRT 3.0展现出代差优势:在16MB大数据流转时,其时延表现较FastDDS提升了4至5.6倍,较CycloneDDS最高提升近35倍,实现了大数据负载下的微秒级确定性响应 [17] 技术突破三:调度革新实现异构算力统一编排 - 构建了一套面向多计算单元(CPU、GPU、AI加速单元)的异构算力统一调度机制,进行精细化管理,避免算力空转与链路阻塞 [18][20] - 在CPU侧,深度融合优先级与时间片轮转等调度策略,并结合精细化绑核控制,确保逻辑控制与关键任务的实时性 [18] - 在GPU侧,引入“优先级+流水线+全并行”的一体化调度架构:通过模型级优先级管理保障关键任务算力;借助异步流水线调度实现数据处理与模型推理的重叠执行;协同GPU与专用加速单元进行并行执行,最大化整体吞吐 [18][20] - 实测数据显示,该调度框架使逻辑响应时延降低31%,核心感知模型推理时延降低30%,VLA推理链路进一步压缩28%,端到端时延稳定性显著提升,推理时延由108ms缩减至78ms [21] 生态合作与商业化应用 - AutoDRRT已率先实现了对地平线征程6(J6)平台的深度原生支持,打通了底层芯片异构算力到上层通用软件栈的全链路,完成了ROS + Autoware.ai 以及 ROS2 + Autoware.universe 的全栈原生适配,成为行业首个适配该平台的开源自动驾驶框架 [21] - 基于J6域控+AutoDRRT,客户可实现方案的“开箱即用”与快速验证,覆盖无人配送与环卫小车等多元场景,助力无人车产品缩短研发周期,抢占商业化落地先机 [21] - 该框架为业界提供了首个面向VLA大模型、可在智驾域控平台运行的开源加速框架,验证了VLA大模型在车端实时闭环运行的工程可行性,为自动驾驶从“端到端感知”迈向“全场景通用智能”提供了系统基础 [23]