NVIDIA Jetson Orin平台 - 财报，业绩电话会，研报，新闻

NVIDIA Jetson Orin平台

搜索文档

理想TOP2· 2026-03-01 16:36

论文核心观点与目标 - 论文提出了一套基于Roofline建模的数学框架，用于在给定的自动驾驶芯片上，为端侧大语言模型找到最优的架构设计方案[1] - 该框架旨在解决在芯片算力、内存及数据搬运速度有限的情况下，如何设计出既智能（低错误率）又反应快（低时延）的模型的问题[1] - 核心方法是通过数学公式预测最优模型架构，避免了训练成百上千个模型进行对比的高成本，实现了硬件特性与模型架构参数的协同优化[1][2] 硬件协同设计方法论 - 协同设计的两方是AI模型的架构参数（如层数、宽度、稀疏度）和芯片的硬件特性（如峰值算力、内存带宽、总内存），而非传统的软件与硬件团队[2] - 核心工作是将硬件的物理约束（时延、内存）用数学公式表达，并在这些约束下搜索最优的模型架构[2] - 在NVIDIA Jetson Orin平台上，通过评估1,942个候选架构并实际训练170个代表性模型（每个训练100亿个token），拟合出了Scaling Laws[2] - 最终在与Qwen2.5-0.5B相同时延条件下，协同设计出的架构将模型困惑度降低了19.42%[2] 优化问题的数学表述（公式1） - 优化目标是在满足严格时延和内存约束的前提下，最小化模型的损失函数（即错误率）[4][5] - 损失函数 \(L(\theta)\) 取决于模型架构参数集合 \(\theta = (l, d, d_m, r, \rho)\)，分别代表层数、宽度、KV缓存维度、FFN扩展比和专家激活率[6][8] - 约束条件包括：推理时延 \(T(\theta, \Pi, C) \leq T_{\text{max}}\) 和内存占用 \(M(\theta, \Pi, C) \leq M_{\text{max}}\)，其中 \(\Pi\) 为硬件参数，\(C\) 为工作负载配置[9] 模型性能预测器（公式2） - 公式 \(\hat{L}(\theta)\) 是一个预测器，允许工程师在不实际训练的情况下，通过代入架构参数快速估算模型的最终错误率，极大加速架构搜索[11][12] - 预测公式由五项相加组成，分别代表不同架构因素对错误率的贡献[13] - 深度贡献项：与层数 \(l\) 的 \(\alpha_l\) 次方成反比（\(\alpha_l \approx 0.34\)），层数越多，错误率贡献越低[13] - 宽度与稀疏度交互贡献项：涉及宽度 \(d\)、稀疏度 \(\rho\) 及拟合系数（\(\kappa_\rho=500, \alpha_\rho=0.73, \beta_1=0.51\)），揭示了二者复杂的耦合关系需要协同调整[13] - FFN扩展比与宽度联合贡献项：与 \(r \cdot d^{\beta_2}\) 成反比（\(\beta_2 \approx 0.28\)），FFN越宽、模型越宽，错误率越低[13][15] - KV缓存维度贡献项：系数 \(\kappa_{md}\) 极小（0.05），表明其对模型精度影响微弱，但对内存占用影响大，需谨慎权衡[15] - 基础错误项 \(L_\infty\)：代表由数据噪声和任务内在不确定性决定的理论错误下限[16] 时延上限模型（公式3） - 公式3基于Roofline模型，用于估算模型在特定芯片上的推理时延上限，是连接模型架构与硬件特性的核心桥梁[17][18] - 时延 \(T_{\text{roofline}}\) 由计算时间 \( \text{FLOPs}(\theta, C) / F_{\text{peak}} \) 和数据搬运时间 \( \text{Bytes}(\theta, C) / B_{\text{width}} \) 中的最大值决定，反映了计算与访存的瓶颈[19][20][21] - 论文指出，在当前边缘计算芯片上，大语言模型推理大多处于访存瓶颈状态，即内存带宽是主要限制因素[22] 架构设计指导法则（公式4） - 公式4推导出在内存受限的边缘设备上，模型宽度与稀疏度的最优配比法则：\(\rho^{*}\propto d^{\frac{\beta_{1}-\beta_{2}}{\alpha_{\rho}}}\)[23][25] - 代入拟合系数（\(\beta_1=0.51, \beta_2=0.28, \alpha_\rho=0.73\)）后，指数约为 -0.315，表明模型设计得越宽，其最佳稀疏度应越高（即激活的专家比例越低）[26] - 量化指导：当模型宽度 \(d\) 翻倍时，最优激活率 \(\rho^*\) 应降低约2.3倍[26] - 这一反直觉的结论指出，在内存预算有限时，应通过增加总专家数但降低激活率（使用更稀疏的MoE）来换取更高模型容量，而非单纯增加宽度[24] 对马赫100芯片的推断 - 马赫100芯片采用数据流架构，从底层为AI大模型推理设计，重点优化内存带宽，追求有效算力而非峰值算力[27] - 基于Roofline模型，在边缘设备上运行大模型时，内存带宽 \(B_{\text{width}}\) 常是瓶颈，峰值算力 \(F_{\text{peak}}\) 难以完全发挥[27] - 公司声称马赫100跑VLA大模型时有效算力是英伟达Thor-U的3倍，这暗示其通过优化内存带宽、片上缓存和数据通路，实现了远高于通用芯片的硬件利用率（马赫100峰值算力1280 TOPS vs Thor-U约700 TOPS）[27] - 自研编译器是软硬协同的技术中枢，负责调度数据驱动逻辑并定义芯片功能模块，实现了将高级AI模型代码最优化映射到数据流硬件上，支持灵活集成如3D ViT等新型计算模块[28]