AutoDRRT 3.0 - 财报，业绩电话会，研报，新闻

AutoDRRT 3.0

搜索文档

自动驾驶之心· 2026-01-05 11:33

行业趋势：VLA大模型成为高阶自动驾驶关键方向 - 随着高阶自动驾驶迈向“端到端”阶段，VLA（视觉-语言-动作）大模型正成为自动驾驶的最佳模型方案，它通过统一建模视觉感知、语义理解与逻辑决策，使系统具备类似人类的语义理解与推理能力，是突破自动驾驶“长尾场景”挑战的关键 [2] - 然而，VLA大模型参数规模已增长至数十亿甚至百亿级，多模态数据在异构算力间流转处理时，模型延时普遍超过100ms，难以满足实时性需求，亟需软硬件系统优化来解决车载端异构计算协同问题 [2][5] 技术挑战：VLA大模型车端部署面临三大瓶颈 - **计算挑战**：模型参数从千万级跃迁至数十亿甚至百亿级，对算力、存储带宽与系统协同效率提出空前挑战；其推理过程呈现多阶段强依赖特征，时延呈串行累积；Transformer架构的自注意力计算复杂度随序列长度指数增长，且自回归生成导致动作指令必须串行产出，限制了硬件并行度；数十亿级参数量导致芯片频繁访存，受限于端侧内存带宽，计算单元常因“等数据”而空转 [5][6] - **通信挑战**：与传统模块化系统相比，VLA大模型对数据通信的压力呈指数级增长，多模态特征、高清图像及中间张量频繁在不同计算单元间流转；端到端闭环对时延极为敏感，传统基于中间件的通信机制（如多次拷贝、序列化与协议栈开销）成为制约实时性的核心瓶颈 [6] - **调度挑战**：VLA大模型的执行过程具有明显的异构性与阶段性特征，不同子任务在实时性、计算量与优先级上差异显著；传统以线程或进程为粒度的粗放式调度方式，难以应对多任务并发、强优先级约束与异构算力协同的需求，容易导致关键任务阻塞、算力资源空转或端到端时延不可预测 [7] 解决方案：AutoDRRT 3.0计算加速框架 - 浪潮信息研究团队开源了面向VLA大模型的自动驾驶计算加速框架AutoDRRT 3.0，该框架基于其自动驾驶车载计算平台EIS400，通过在计算效率、通信延时、任务调度三大维度的创新重构，旨在解决VLA大模型的上车挑战 [3][8] - 该框架面向2D+CNN小模型、BEV+Transformer大模型、VLA大模型等不同算法进行了针对性的算法内核与架构升级，汽车厂商、软件平台商和中间件软件开发商可免费下载使用 [3] 技术突破一：计算革新实现全闭环加速 - 通过并行解码、视觉剪枝、算子融合与混合量化等技术，对VLA推理链路进行重构，实现了从“视觉输入”到“动作输出”的全闭环加速 [9][12] - **并行解码**：将单步预测演进为“时域序列预测”，在一个推理周期内并行产出未来多步动作指令，消除了逐个Token产出的逻辑依赖，释放了异构硬件的并行计算潜能 [12] - **视觉剪枝**：引入面向自动驾驶场景的视觉剪枝技术，通过衡量特征向量间的余弦距离，在无须模型微调的前提下，实现了对冗余视觉信息的极高比例压缩，解决了传统注意力剪枝可能导致关键感知目标被误剔除的风险 [12] - **算子融合与混合量化**：实施异构精度策略，对视觉Transformer实施INT8 PTQ量化以提升吞吐，对语言内核采用W4A16量化以突破访存带宽瓶颈；同时进行深度算子融合，并将部分高频操作前移至预处理阶段，消除冗余计算 [12] - 通过上述优化，成功将10亿级参数VLA大模型的端到端推理时延从8000ms降低到78ms，其中并行解码模块将时延从2000ms降低至300ms，视觉剪枝模块将时延从170ms降低至130ms，整体性能提升102倍，这是业内首个将VLA大模型端到端推理时延稳定压缩至100ms以内的开源计算加速框架 [13] 技术突破二：通信革新构建高性能机制 - 从底层重构了面向异构计算单元（CPU-CPU、CPU-GPU、GPU-GPU）的统一高性能通信机制，构建了“轻量调度+极速流转”的混合模式 [14][16] - “轻量调度模式”专注于微秒级的逻辑信令通路，用于精细调度与同步唤醒；“极速模式”为大数据提供共享内存，从根本上革除了传统DDS协议中的序列化损耗与冗余拷贝 [16] - 通过地址映射实现CPU与GPU之间的数据直达，在GPU之间构建以共享内存为中枢的高速流转机制，实现了以“地址共享替代数据搬运”的“零拷贝”闭环 [16] - 在1MB至16MB的负载测试中，AutoDRRT 3.0展现出代差优势：在16MB大数据流转时，其时延表现较FastDDS提升了4至5.6倍，较CycloneDDS最高提升近35倍，实现了大数据负载下的微秒级确定性响应 [17] 技术突破三：调度革新实现异构算力统一编排 - 构建了一套面向多计算单元（CPU、GPU、AI加速单元）的异构算力统一调度机制，进行精细化管理，避免算力空转与链路阻塞 [18][20] - 在CPU侧，深度融合优先级与时间片轮转等调度策略，并结合精细化绑核控制，确保逻辑控制与关键任务的实时性 [18] - 在GPU侧，引入“优先级+流水线+全并行”的一体化调度架构：通过模型级优先级管理保障关键任务算力；借助异步流水线调度实现数据处理与模型推理的重叠执行；协同GPU与专用加速单元进行并行执行，最大化整体吞吐 [18][20] - 实测数据显示，该调度框架使逻辑响应时延降低31%，核心感知模型推理时延降低30%，VLA推理链路进一步压缩28%，端到端时延稳定性显著提升，推理时延由108ms缩减至78ms [21] 生态合作与商业化应用 - AutoDRRT已率先实现了对地平线征程6（J6）平台的深度原生支持，打通了底层芯片异构算力到上层通用软件栈的全链路，完成了ROS + Autoware.ai 以及 ROS2 + Autoware.universe 的全栈原生适配，成为行业首个适配该平台的开源自动驾驶框架 [21] - 基于J6域控+AutoDRRT，客户可实现方案的“开箱即用”与快速验证，覆盖无人配送与环卫小车等多元场景，助力无人车产品缩短研发周期，抢占商业化落地先机 [21] - 该框架为业界提供了首个面向VLA大模型、可在智驾域控平台运行的开源加速框架，验证了VLA大模型在车端实时闭环运行的工程可行性，为自动驾驶从“端到端感知”迈向“全场景通用智能”提供了系统基础 [23]