DSA架构

搜索文档
NPU还是GPGPU?
傅里叶的猫· 2025-07-20 22:40
半导体架构演进 - NVIDIA GPU发展呈现明显周期:从早期图形渲染固定流水线DSA架构→统一Shader架构和SIMT抽象→AI时代引入Tensor Core重回DSA化,通过CUDA生态维持行业地位 [1] - 国内Ascend采用系统级统一设计:针对异构架构生态碎片化问题,提出同构ISA和混合执行模型,设计统一总线(UB)实现CPU/GPU/NPU编程统一和高效互连 [1] - SIMT与SIMD架构差异:SIMT编程灵活性高适合稀疏数据和复杂控制流,SIMD硬件效率优适合密集型向量运算,关键在于软硬件交付界面设计 [2] NPU技术特性 - NPU专为AI计算设计:在能效比和计算速度上优于CPU/GPU,适合移动设备、边缘计算和嵌入式AI,近年也应用于大模型训练推理 [3] - NPU硬件优势:指令架构简单(可嵌入ARM/RISC-V扩展指令集)、功耗低、内存使用模式单一,成为应对芯片出口管制的可行方案 [3] - 设计复杂度对比:CPU复杂度为1时,图形GPU为0.3-0.4,NPU不足0.1,核心是矩阵乘法和卷积运算的堆料设计 [4] NPU现存挑战 - 软件复杂度远超硬件:国产GPU卡因软件体验差导致数据中心利用率低下,高端算力紧缺与低端算力过剩并存 [5] - 内存架构缺陷:L1缓存有限且存在存储体冲突,缺乏SIMT的延迟隐藏机制,访存延迟直接暴露易造成计算核心空转 [5] - 生态碎片化:不同厂商NPU架构差异大,软件移植成本高,尚未经历GPU行业的标准化收敛过程 [5] GPU与NPU架构对比 - 历史演变相似性:早期显卡与当前NPU均为CPU远程控制的专用计算器,GPU通过集成独立控制单元实现功能进化 [6] - 控制层级差异:GPU采用"CPU→GPU→张量核心"三级控制链,NPU仅为"CPU→NPU"二级结构,缺乏自主控制能力 [7] - 英伟达关键突破:SIMT编程模型降低并行计算门槛,而NPU仍依赖外部CPU调度,难以适应大模型训练的实时策略调整 [7] 行业发展趋势 - AI任务复杂度提升:从单一推理向"训练+推理"全流程演进,驱动芯片架构向"高效计算+灵活控制"方向发展 [7] - 技术融合路径:国产NPU需引入SIMT前端并强化控制单元向GPU靠拢,同时GPU内部模块需DSA化 [7] - 英伟达算力宣传策略:H100的FP16算力989.4万亿次通过2:4稀疏度计算被宣传为1979.8万亿次,与实际密集运算指标存在差异 [4]