CIM（内存计算）/PIM（内存处理器） - 财报，业绩电话会，研报，新闻

CIM（内存计算）/PIM（内存处理器）

搜索文档

半导体行业观察· 2026-04-17 10:06

文章核心观点 - 人工智能（AI）的第三次浪潮始于1993年，其核心驱动力是计算能力的显著提升，特别是图形处理器（GPU）的普及，这解决了前两次浪潮因算力不足而停滞的问题 [1] - 2012年ImageNet大赛中基于卷积神经网络（CNN）的AlexNet的突破性成功，标志着CNN成为AI发展的核心技术，并引发了使用GPU进行AI研究的热潮 [1] - GPU因其高度并行计算能力和易获取性，成为早期AI训练的关键硬件，但并非专为AI设计，存在功耗高、处理小批量或稀疏数据效率低等局限性 [12][15][20][21] - 为克服GPU的局限并追求更高效率，行业正积极发展专用AI处理器/加速器，其特点包括：专为AI计算优化、采用数据流架构、集成大量SRAM或HBM内存，以及探索存内计算（CIM/PIM）和模拟处理等新技术路径 [24][26][32][36][40][41] 人工智能发展历程与关键转折 - **第三次浪潮的起点**：人工智能的第三次浪潮始于1993年，核心原因是计算能力的大幅提升，使得传统算法得以有效应用 [1] - **标志性事件**：1997年IBM“深蓝”击败国际象棋世界冠军，但其基于专用硬件的“蛮力”计算并未普及 [1] - **历史性突破**：2012年ILSVRC大赛中，多伦多大学的AlexNet（基于CNN）以显著优势获胜，错误率为16.4%，此后CNN成为AI研究的主流方向 [1][10] - **性能飞跃**：2015年微软ResNet将ImageNet错误率降至3.57%，低于人类的5.1%，但网络层数达152层，计算量巨大 [10] 卷积神经网络（CNN）与计算需求 - **CNN的起源**：其理论基础源于1958年对大脑结构的模拟（感知器模型），早期尝试如Thinking Machines公司的CM-1系统因规模远小于人脑而未成功 [2] - **计算需求激增**：以AlexNet第一层卷积为例，需进行超3500万次乘法和近3500万次加法运算 [9] - **算力对比**：AlexNet使用两张NVIDIA Tesla C2050显卡（算力共约2.06 TFlops）训练约两周，若使用1980年代的CM-1系统完成相同任务需70多年 [3] - **硬件选择必然性**：处理CNN海量计算的唯一可行方案是使用具备高度并行计算能力的GPU [12] GPU成为AI计算主流的原因与演进 - **核心优势**： - **高度并行性**：利用SIMT架构，可同时处理大量线程（如Fermi架构有24,576个线程），适合CNN的并行计算模式 [12][13] - **内存与计算平衡**：早期CNN模型（如AlexNet第一层）所需数据量约1.3MB，可放入缓存，属于计算密集型任务，与GPU特性匹配 [14] - **易获取性与生态**：消费级GeForce显卡易于购买，且CUDA编程比OpenCL更易用，迅速形成了AI研究与NVIDIA GPU的强绑定 [15] - **NVIDIA的持续优化**： - **引入专用单元**：2017年在Volta架构中引入张量核心，专门优化矩阵运算 [18] - **降低计算精度**：为提升性能，支持FP16/BF16、FP8乃至最新的FP4数据类型，通过构建更大网络来弥补精度损失 [18][19] - **集成高带宽内存**：为应对大型网络的内存需求，集成HBM内存以提升带宽和容量 [19] - **面临的挑战**： - **功耗剧增**：从Ampere A100的250W，到Hopper H200的700W，再到Blackwell B300的1400W，给数据中心供电带来压力 [20] - **处理效率局限**：在LLM推理中，当批处理大小减小时，GPU性能会下降；且SIMD结构难以高效处理稀疏矩阵 [20][21] - **架构调整**：NVIDIA曾计划为LLM解码推出专用处理器（Rubin CPX），但后续改为采用不兼容CUDA的Groq 3处理器，显示出GPU的局限性 [21] 专用AI处理器/加速器的兴起与特点 - **发展背景**：2010年代末，GPU在AI计算中的缺点逐渐显现，催生了旨在弥补这些不足或针对特定市场的专用AI处理器/加速器 [24] - **核心设计特点**： - **专用计算单元**：许多加速器仅专注于卷积和激活函数等特定AI运算，牺牲通用性以换取更高效率 [24] - **异构集成**：常将通用CPU内核（如RISC-V）与专用AI加速器结合，以保持一定的灵活性和可编程性 [25] - **主流架构与技术趋势**： - **数据流架构**：成为主流设计，通过将处理任务像流水线一样分配给多个处理单元（PE），减少开销并优化负载，能高效处理稀疏矩阵 [26][27][31] - **存内计算/近存计算**：将内存与计算单元紧密结合以降低数据传输功耗，特别适合以卷积为主的AI计算。三星、SK海力士等公司正推进相关研发 [32][33][35] - **集成大容量SRAM**：为避免高延迟、高功耗的片外DRAM访问，AI加速器倾向于集成大量SRAM作为暂存区。Cerebras的WSE-3集成了90万个PE和44GB SRAM [36][37][38] - **搭载HBM内存**：为满足LLM等大型模型的内存需求，AI处理器普遍集成2到4个HBM芯片以获取超高带宽 [40] - **模拟处理器**：适用于边缘计算，通过模拟电路执行卷积运算实现高能效和低成本，代表公司有Mythic、Aspinity等 [41][42]