Workflow
思元(MLU)云端芯片
icon
搜索文档
十篇论文,揭秘寒武纪AI芯片崛起之路
半导体行业观察· 2025-10-23 09:01
文章核心观点 - 寒武纪的崛起是一条典型的"硬核"技术路线,其发展脉络和战略抉择均清晰地体现在其从2014年至2025年间公开发表的十篇关键学术论文中 [5] - 公司从最初探索专用硬件加速器可行性,逐步进化到构建指令集、优化稀疏计算、设计专为AI训练的新架构,最终实现对新兴AI应用(如神经场景表征)的算法与硬件深度协同优化 [5][26][36][57][59] - 公司的核心竞争力源于其深厚的学术底蕴和对计算架构的颠覆性创新,其技术演进展示了从学术研究到商业产品,再到构建独立生态的完整路径 [5][7][37] 奠基时代:"DianNao"系列的一鸣惊人 - 寒武纪的诞生源于陈云霁与陈天石兄弟在中科院计算所的学术研究,他们拥有深厚的处理器设计学术背景 [7] - "DianNao"系列是全球最早、最系统化的深度学习处理器架构研究之一,开创性地提出针对神经网络的专用硬件加速器,通过软硬件协同设计实现性能和能效的数量级提升 [7] - 2014年的"DianNao"论文验证了专用硬件加速器路线的可行性,该加速器在3.02平方毫米面积、485毫瓦功耗下实现452 GOP/s性能,比128位2GHz SIMD处理器快117.87倍,能耗降低21.08倍 [11][12] - 同年的"DaDianNao"面向数据中心,采用多芯片设计,在64芯片系统中相比GPU实现450.65倍加速,能耗降低150.31倍,是后续云端芯片思想的雏形 [14] - 2015年的"PuDianNao"扩展了加速器的通用性,支持K-Means、SVM等七种机器学习算法,在65纳米工艺下比NVIDIA K20M GPU能效提高128.41倍,体现了对算法快速迭代的适应性思考 [17][19][20] - 2015年的"ShiDianNao"专为视觉应用设计,将计算单元靠近传感器以消除DRAM访问,能效比当时最先进的神经网络加速器高60倍,为终端AI芯片设计埋下伏笔 [24][25] 商业化序章:从指令集到IP核的进化 - 公司正式成立后,意识到构建生态的重要性,核心举措是提出了首个专门针对深度学习的指令集"Cambricon ISA",实现了上层应用与底层硬件的解耦 [26] - 2016年的"Cambricon"指令集论文是公司的"立司之本",该指令集综合了标量、向量、矩阵等指令,比x86、MIPS等通用指令集代码密度更高,基于该指令集的加速器能灵活覆盖10种不同的神经网络 [27][29][30] - 同年的"Cambricon-X"论文专注于稀疏神经网络加速,通过硬件优化利用模型稀疏性,平均比当时最先进的神经网络加速器实现7.23倍加速和6.43倍节能,进入精细化场景优化阶段 [31][34][35] 转型生态构建:软硬件一体化的产品矩阵 - 2017年公司迎来关键商业突破,其Cambricon-1A处理器被集成于华为麒麟970芯片,成为全球首款搭载独立AI单元的手机SoC [37] - 2019年后,面对重要客户转向自研,公司加速自有品牌"思元"云端芯片迭代,并大力投入NeuWare全栈软件平台建设,以构建独立生态 [37] - 2019年的"Cambricon-F"提出专为AI计算的"分形冯诺依曼架构",通过同构多层设计显著提高编程生产力,其实例相比GPU性能提升最高5.14倍,能效平均提升11.39倍 [38][41][42][43] - 2021年的"Cambricon-Q"是针对高效量化训练的定制混合架构,结合ASIC和近数据处理引擎,在DNN训练中相比GPU能效提升6.41倍,性能提升4.20倍,且精度损失不超过0.4% [44][47][48] - 2024年的"Cambricon-C"针对4位低精度计算,提出将矩阵乘法"原始化"为计数操作的新范式,能效比传统脉动阵列提升1.95倍,为超低精度LLM时代提供了颠覆性解决方案 [50][52][53] - 2025年的"Cambricon-SR"展示了算法与硬件的深度协同,通过新型稀疏编码表算法和定制硬件,在神经场景表征训练中相比A100 GPU实现1259倍加速和1139倍能耗降低 [54][56][57]