NVIDIA Jetson Orin平台
搜索文档
理想用四组数学公式分享对自动驾驶芯片软硬协同设计的理解|能看懂
理想TOP2· 2026-03-01 16:36
论文核心观点与目标 - 论文提出了一套基于Roofline建模的数学框架,用于在给定的自动驾驶芯片上,为端侧大语言模型找到最优的架构设计方案[1] - 该框架旨在解决在芯片算力、内存及数据搬运速度有限的情况下,如何设计出既智能(低错误率)又反应快(低时延)的模型的问题[1] - 核心方法是通过数学公式预测最优模型架构,避免了训练成百上千个模型进行对比的高成本,实现了硬件特性与模型架构参数的协同优化[1][2] 硬件协同设计方法论 - 协同设计的两方是AI模型的架构参数(如层数、宽度、稀疏度)和芯片的硬件特性(如峰值算力、内存带宽、总内存),而非传统的软件与硬件团队[2] - 核心工作是将硬件的物理约束(时延、内存)用数学公式表达,并在这些约束下搜索最优的模型架构[2] - 在NVIDIA Jetson Orin平台上,通过评估1,942个候选架构并实际训练170个代表性模型(每个训练100亿个token),拟合出了Scaling Laws[2] - 最终在与Qwen2.5-0.5B相同时延条件下,协同设计出的架构将模型困惑度降低了19.42%[2] 优化问题的数学表述(公式1) - 优化目标是在满足严格时延和内存约束的前提下,最小化模型的损失函数(即错误率)[4][5] - 损失函数 \(L(\theta)\) 取决于模型架构参数集合 \(\theta = (l, d, d_m, r, \rho)\),分别代表层数、宽度、KV缓存维度、FFN扩展比和专家激活率[6][8] - 约束条件包括:推理时延 \(T(\theta, \Pi, C) \leq T_{\text{max}}\) 和内存占用 \(M(\theta, \Pi, C) \leq M_{\text{max}}\),其中 \(\Pi\) 为硬件参数,\(C\) 为工作负载配置[9] 模型性能预测器(公式2) - 公式 \(\hat{L}(\theta)\) 是一个预测器,允许工程师在不实际训练的情况下,通过代入架构参数快速估算模型的最终错误率,极大加速架构搜索[11][12] - 预测公式由五项相加组成,分别代表不同架构因素对错误率的贡献[13] - 深度贡献项:与层数 \(l\) 的 \(\alpha_l\) 次方成反比(\(\alpha_l \approx 0.34\)),层数越多,错误率贡献越低[13] - 宽度与稀疏度交互贡献项:涉及宽度 \(d\)、稀疏度 \(\rho\) 及拟合系数(\(\kappa_\rho=500, \alpha_\rho=0.73, \beta_1=0.51\)),揭示了二者复杂的耦合关系需要协同调整[13] - FFN扩展比与宽度联合贡献项:与 \(r \cdot d^{\beta_2}\) 成反比(\(\beta_2 \approx 0.28\)),FFN越宽、模型越宽,错误率越低[13][15] - KV缓存维度贡献项:系数 \(\kappa_{md}\) 极小(0.05),表明其对模型精度影响微弱,但对内存占用影响大,需谨慎权衡[15] - 基础错误项 \(L_\infty\):代表由数据噪声和任务内在不确定性决定的理论错误下限[16] 时延上限模型(公式3) - 公式3基于Roofline模型,用于估算模型在特定芯片上的推理时延上限,是连接模型架构与硬件特性的核心桥梁[17][18] - 时延 \(T_{\text{roofline}}\) 由计算时间 \( \text{FLOPs}(\theta, C) / F_{\text{peak}} \) 和数据搬运时间 \( \text{Bytes}(\theta, C) / B_{\text{width}} \) 中的最大值决定,反映了计算与访存的瓶颈[19][20][21] - 论文指出,在当前边缘计算芯片上,大语言模型推理大多处于访存瓶颈状态,即内存带宽是主要限制因素[22] 架构设计指导法则(公式4) - 公式4推导出在内存受限的边缘设备上,模型宽度与稀疏度的最优配比法则:\(\rho^{*}\propto d^{\frac{\beta_{1}-\beta_{2}}{\alpha_{\rho}}}\)[23][25] - 代入拟合系数(\(\beta_1=0.51, \beta_2=0.28, \alpha_\rho=0.73\))后,指数约为 -0.315,表明模型设计得越宽,其最佳稀疏度应越高(即激活的专家比例越低)[26] - 量化指导:当模型宽度 \(d\) 翻倍时,最优激活率 \(\rho^*\) 应降低约2.3倍[26] - 这一反直觉的结论指出,在内存预算有限时,应通过增加总专家数但降低激活率(使用更稀疏的MoE)来换取更高模型容量,而非单纯增加宽度[24] 对马赫100芯片的推断 - 马赫100芯片采用数据流架构,从底层为AI大模型推理设计,重点优化内存带宽,追求有效算力而非峰值算力[27] - 基于Roofline模型,在边缘设备上运行大模型时,内存带宽 \(B_{\text{width}}\) 常是瓶颈,峰值算力 \(F_{\text{peak}}\) 难以完全发挥[27] - 公司声称马赫100跑VLA大模型时有效算力是英伟达Thor-U的3倍,这暗示其通过优化内存带宽、片上缓存和数据通路,实现了远高于通用芯片的硬件利用率(马赫100峰值算力1280 TOPS vs Thor-U约700 TOPS)[27] - 自研编译器是软硬协同的技术中枢,负责调度数据驱动逻辑并定义芯片功能模块,实现了将高级AI模型代码最优化映射到数据流硬件上,支持灵活集成如3D ViT等新型计算模块[28]