一文看懂NPU - Reportify

文章核心观点 - 人工智能（AI）的第三次浪潮始于1993年，其核心驱动力是计算能力的显著提升，特别是图形处理器（GPU）的普及，这解决了前两次浪潮因算力不足而停滞的问题 [1] - 2012年ImageNet大赛中基于卷积神经网络（CNN）的AlexNet的突破性成功，标志着CNN成为AI发展的核心技术，并引发了使用GPU进行AI研究的热潮 [1] - GPU因其高度并行计算能力和易获取性，成为早期AI训练的关键硬件，但并非专为AI设计，存在功耗高、处理小批量或稀疏数据效率低等局限性 [12][15][20][21] - 为克服GPU的局限并追求更高效率，行业正积极发展专用AI处理器/加速器，其特点包括：专为AI计算优化、采用数据流架构、集成大量SRAM或HBM内存，以及探索存内计算（CIM/PIM）和模拟处理等新技术路径 [24][26][32][36][40][41] 人工智能发展历程与关键转折 - 第三次浪潮的起点：人工智能的第三次浪潮始于1993年，核心原因是计算能力的大幅提升，使得传统算法得以有效应用 [1] - 标志性事件：1997年IBM“深蓝”击败国际象棋世界冠军，但其基于专用硬件的“蛮力”计算并未普及 [1] - 历史性突破：2012年ILSVRC大赛中，多伦多大学的AlexNet（基于CNN）以显著优势获胜，错误率为16.4%，此后CNN成为AI研究的主流方向 [1][10] - 性能飞跃：2015年微软ResNet将ImageNet错误率降至3.57%，低于人类的5.1%，但网络层数达152层，计算量巨大 [10] 卷积神经网络（CNN）与计算需求 - CNN的起源：其理论基础源于1958年对大脑结构的模拟（感知器模型），早期尝试如Thinking Machines公司的CM-1系统因规模远小于人脑而未成功 [2] - 计算需求激增：以AlexNet第一层卷积为例，需进行超3500万次乘法和近3500万次加法运算 [9] - 算力对比：AlexNet使用两张NVIDIA Tesla C2050显卡（算力共约2.06 TFlops）训练约两周，若使用1980年代的CM-1系统完成相同任务需70多年 [3] - 硬件选择必然性：处理CNN海量计算的唯一可行方案是使用具备高度并行计算能力的GPU [12] GPU成为AI计算主流的原因与演进 - 核心优势： - 高度并行性：利用SIMT架构，可同时处理大量线程（如Fermi架构有24,576个线程），适合CNN的并行计算模式 [12][13] - 内存与计算平衡：早期CNN模型（如AlexNet第一层）所需数据量约1.3MB，可放入缓存，属于计算密集型任务，与GPU特性匹配 [14] - 易获取性与生态：消费级GeForce显卡易于购买，且CUDA编程比OpenCL更易用，迅速形成了AI研究与NVIDIA GPU的强绑定 [15] - NVIDIA的持续优化： - 引入专用单元：2017年在Volta架构中引入张量核心，专门优化矩阵运算 [18] - 降低计算精度：为提升性能，支持FP16/BF16、FP8乃至最新的FP4数据类型，通过构建更大网络来弥补精度损失 [18][19] - 集成高带宽内存：为应对大型网络的内存需求，集成HBM内存以提升带宽和容量 [19] - 面临的挑战： - 功耗剧增：从Ampere A100的250W，到Hopper H200的700W，再到Blackwell B300的1400W，给数据中心供电带来压力 [20] - 处理效率局限：在LLM推理中，当批处理大小减小时，GPU性能会下降；且SIMD结构难以高效处理稀疏矩阵 [20][21] - 架构调整：NVIDIA曾计划为LLM解码推出专用处理器（Rubin CPX），但后续改为采用不兼容CUDA的Groq 3处理器，显示出GPU的局限性 [21] 专用AI处理器/加速器的兴起与特点 - 发展背景：2010年代末，GPU在AI计算中的缺点逐渐显现，催生了旨在弥补这些不足或针对特定市场的专用AI处理器/加速器 [24] - 核心设计特点： - 专用计算单元：许多加速器仅专注于卷积和激活函数等特定AI运算，牺牲通用性以换取更高效率 [24] - 异构集成：常将通用CPU内核（如RISC-V）与专用AI加速器结合，以保持一定的灵活性和可编程性 [25] - 主流架构与技术趋势： - 数据流架构：成为主流设计，通过将处理任务像流水线一样分配给多个处理单元（PE），减少开销并优化负载，能高效处理稀疏矩阵 [26][27][31] - 存内计算/近存计算：将内存与计算单元紧密结合以降低数据传输功耗，特别适合以卷积为主的AI计算。三星、SK海力士等公司正推进相关研发 [32][33][35] - 集成大容量SRAM：为避免高延迟、高功耗的片外DRAM访问，AI加速器倾向于集成大量SRAM作为暂存区。Cerebras的WSE-3集成了90万个PE和44GB SRAM [36][37][38] - 搭载HBM内存：为满足LLM等大型模型的内存需求，AI处理器普遍集成2到4个HBM芯片以获取超高带宽 [40] - 模拟处理器：适用于边缘计算，通过模拟电路执行卷积运算实现高能效和低成本，代表公司有Mythic、Aspinity等 [41][42]