文章核心观点 - 人工智能(AI)的第三次浪潮始于1993年,其核心驱动力是计算能力的显著提升,特别是图形处理器(GPU)的普及,这解决了前两次浪潮因算力不足而停滞的问题 [1] - 2012年ImageNet大赛中基于卷积神经网络(CNN)的AlexNet的突破性成功,标志着CNN成为AI发展的核心技术,并引发了使用GPU进行AI研究的热潮 [1] - GPU因其高度并行计算能力和易获取性,成为早期AI训练的关键硬件,但并非专为AI设计,存在功耗高、处理小批量或稀疏数据效率低等局限性 [12][15][20][21] - 为克服GPU的局限并追求更高效率,行业正积极发展专用AI处理器/加速器,其特点包括:专为AI计算优化、采用数据流架构、集成大量SRAM或HBM内存,以及探索存内计算(CIM/PIM)和模拟处理等新技术路径 [24][26][32][36][40][41] 人工智能发展历程与关键转折 - 第三次浪潮的起点:人工智能的第三次浪潮始于1993年,核心原因是计算能力的大幅提升,使得传统算法得以有效应用 [1] - 标志性事件:1997年IBM“深蓝”击败国际象棋世界冠军,但其基于专用硬件的“蛮力”计算并未普及 [1] - 历史性突破:2012年ILSVRC大赛中,多伦多大学的AlexNet(基于CNN)以显著优势获胜,错误率为16.4%,此后CNN成为AI研究的主流方向 [1][10] - 性能飞跃:2015年微软ResNet将ImageNet错误率降至3.57%,低于人类的5.1%,但网络层数达152层,计算量巨大 [10] 卷积神经网络(CNN)与计算需求 - CNN的起源:其理论基础源于1958年对大脑结构的模拟(感知器模型),早期尝试如Thinking Machines公司的CM-1系统因规模远小于人脑而未成功 [2] - 计算需求激增:以AlexNet第一层卷积为例,需进行超3500万次乘法和近3500万次加法运算 [9] - 算力对比:AlexNet使用两张NVIDIA Tesla C2050显卡(算力共约2.06 TFlops)训练约两周,若使用1980年代的CM-1系统完成相同任务需70多年 [3] - 硬件选择必然性:处理CNN海量计算的唯一可行方案是使用具备高度并行计算能力的GPU [12] GPU成为AI计算主流的原因与演进 - 核心优势: - 高度并行性:利用SIMT架构,可同时处理大量线程(如Fermi架构有24,576个线程),适合CNN的并行计算模式 [12][13] - 内存与计算平衡:早期CNN模型(如AlexNet第一层)所需数据量约1.3MB,可放入缓存,属于计算密集型任务,与GPU特性匹配 [14] - 易获取性与生态:消费级GeForce显卡易于购买,且CUDA编程比OpenCL更易用,迅速形成了AI研究与NVIDIA GPU的强绑定 [15] - NVIDIA的持续优化: - 引入专用单元:2017年在Volta架构中引入张量核心,专门优化矩阵运算 [18] - 降低计算精度:为提升性能,支持FP16/BF16、FP8乃至最新的FP4数据类型,通过构建更大网络来弥补精度损失 [18][19] - 集成高带宽内存:为应对大型网络的内存需求,集成HBM内存以提升带宽和容量 [19] - 面临的挑战: - 功耗剧增:从Ampere A100的250W,到Hopper H200的700W,再到Blackwell B300的1400W,给数据中心供电带来压力 [20] - 处理效率局限:在LLM推理中,当批处理大小减小时,GPU性能会下降;且SIMD结构难以高效处理稀疏矩阵 [20][21] - 架构调整:NVIDIA曾计划为LLM解码推出专用处理器(Rubin CPX),但后续改为采用不兼容CUDA的Groq 3处理器,显示出GPU的局限性 [21] 专用AI处理器/加速器的兴起与特点 - 发展背景:2010年代末,GPU在AI计算中的缺点逐渐显现,催生了旨在弥补这些不足或针对特定市场的专用AI处理器/加速器 [24] - 核心设计特点: - 专用计算单元:许多加速器仅专注于卷积和激活函数等特定AI运算,牺牲通用性以换取更高效率 [24] - 异构集成:常将通用CPU内核(如RISC-V)与专用AI加速器结合,以保持一定的灵活性和可编程性 [25] - 主流架构与技术趋势: - 数据流架构:成为主流设计,通过将处理任务像流水线一样分配给多个处理单元(PE),减少开销并优化负载,能高效处理稀疏矩阵 [26][27][31] - 存内计算/近存计算:将内存与计算单元紧密结合以降低数据传输功耗,特别适合以卷积为主的AI计算。三星、SK海力士等公司正推进相关研发 [32][33][35] - 集成大容量SRAM:为避免高延迟、高功耗的片外DRAM访问,AI加速器倾向于集成大量SRAM作为暂存区。Cerebras的WSE-3集成了90万个PE和44GB SRAM [36][37][38] - 搭载HBM内存:为满足LLM等大型模型的内存需求,AI处理器普遍集成2到4个HBM芯片以获取超高带宽 [40] - 模拟处理器:适用于边缘计算,通过模拟电路执行卷积运算实现高能效和低成本,代表公司有Mythic、Aspinity等 [41][42]
一文看懂NPU