Workflow
CIM(内存计算)/PIM(内存处理器)
icon
搜索文档
一文看懂NPU
半导体行业观察· 2026-04-17 10:06
文章核心观点 - 人工智能(AI)的第三次浪潮始于1993年,其核心驱动力是计算能力的显著提升,特别是图形处理器(GPU)的普及,这解决了前两次浪潮因算力不足而停滞的问题 [1] - 2012年ImageNet大赛中基于卷积神经网络(CNN)的AlexNet的突破性成功,标志着CNN成为AI发展的核心技术,并引发了使用GPU进行AI研究的热潮 [1] - GPU因其高度并行计算能力和易获取性,成为早期AI训练的关键硬件,但并非专为AI设计,存在功耗高、处理小批量或稀疏数据效率低等局限性 [12][15][20][21] - 为克服GPU的局限并追求更高效率,行业正积极发展专用AI处理器/加速器,其特点包括:专为AI计算优化、采用数据流架构、集成大量SRAM或HBM内存,以及探索存内计算(CIM/PIM)和模拟处理等新技术路径 [24][26][32][36][40][41] 人工智能发展历程与关键转折 - **第三次浪潮的起点**:人工智能的第三次浪潮始于1993年,核心原因是计算能力的大幅提升,使得传统算法得以有效应用 [1] - **标志性事件**:1997年IBM“深蓝”击败国际象棋世界冠军,但其基于专用硬件的“蛮力”计算并未普及 [1] - **历史性突破**:2012年ILSVRC大赛中,多伦多大学的AlexNet(基于CNN)以显著优势获胜,错误率为16.4%,此后CNN成为AI研究的主流方向 [1][10] - **性能飞跃**:2015年微软ResNet将ImageNet错误率降至3.57%,低于人类的5.1%,但网络层数达152层,计算量巨大 [10] 卷积神经网络(CNN)与计算需求 - **CNN的起源**:其理论基础源于1958年对大脑结构的模拟(感知器模型),早期尝试如Thinking Machines公司的CM-1系统因规模远小于人脑而未成功 [2] - **计算需求激增**:以AlexNet第一层卷积为例,需进行超3500万次乘法和近3500万次加法运算 [9] - **算力对比**:AlexNet使用两张NVIDIA Tesla C2050显卡(算力共约2.06 TFlops)训练约两周,若使用1980年代的CM-1系统完成相同任务需70多年 [3] - **硬件选择必然性**:处理CNN海量计算的唯一可行方案是使用具备高度并行计算能力的GPU [12] GPU成为AI计算主流的原因与演进 - **核心优势**: - **高度并行性**:利用SIMT架构,可同时处理大量线程(如Fermi架构有24,576个线程),适合CNN的并行计算模式 [12][13] - **内存与计算平衡**:早期CNN模型(如AlexNet第一层)所需数据量约1.3MB,可放入缓存,属于计算密集型任务,与GPU特性匹配 [14] - **易获取性与生态**:消费级GeForce显卡易于购买,且CUDA编程比OpenCL更易用,迅速形成了AI研究与NVIDIA GPU的强绑定 [15] - **NVIDIA的持续优化**: - **引入专用单元**:2017年在Volta架构中引入张量核心,专门优化矩阵运算 [18] - **降低计算精度**:为提升性能,支持FP16/BF16、FP8乃至最新的FP4数据类型,通过构建更大网络来弥补精度损失 [18][19] - **集成高带宽内存**:为应对大型网络的内存需求,集成HBM内存以提升带宽和容量 [19] - **面临的挑战**: - **功耗剧增**:从Ampere A100的250W,到Hopper H200的700W,再到Blackwell B300的1400W,给数据中心供电带来压力 [20] - **处理效率局限**:在LLM推理中,当批处理大小减小时,GPU性能会下降;且SIMD结构难以高效处理稀疏矩阵 [20][21] - **架构调整**:NVIDIA曾计划为LLM解码推出专用处理器(Rubin CPX),但后续改为采用不兼容CUDA的Groq 3处理器,显示出GPU的局限性 [21] 专用AI处理器/加速器的兴起与特点 - **发展背景**:2010年代末,GPU在AI计算中的缺点逐渐显现,催生了旨在弥补这些不足或针对特定市场的专用AI处理器/加速器 [24] - **核心设计特点**: - **专用计算单元**:许多加速器仅专注于卷积和激活函数等特定AI运算,牺牲通用性以换取更高效率 [24] - **异构集成**:常将通用CPU内核(如RISC-V)与专用AI加速器结合,以保持一定的灵活性和可编程性 [25] - **主流架构与技术趋势**: - **数据流架构**:成为主流设计,通过将处理任务像流水线一样分配给多个处理单元(PE),减少开销并优化负载,能高效处理稀疏矩阵 [26][27][31] - **存内计算/近存计算**:将内存与计算单元紧密结合以降低数据传输功耗,特别适合以卷积为主的AI计算。三星、SK海力士等公司正推进相关研发 [32][33][35] - **集成大容量SRAM**:为避免高延迟、高功耗的片外DRAM访问,AI加速器倾向于集成大量SRAM作为暂存区。Cerebras的WSE-3集成了90万个PE和44GB SRAM [36][37][38] - **搭载HBM内存**:为满足LLM等大型模型的内存需求,AI处理器普遍集成2到4个HBM芯片以获取超高带宽 [40] - **模拟处理器**:适用于边缘计算,通过模拟电路执行卷积运算实现高能效和低成本,代表公司有Mythic、Aspinity等 [41][42]