DSA架构 - 财报，业绩电话会，研报，新闻

DSA架构

搜索文档

傅里叶的猫· 2025-07-20 22:40

半导体架构演进 - NVIDIA GPU发展呈现明显周期：从早期图形渲染固定流水线DSA架构→统一Shader架构和SIMT抽象→AI时代引入Tensor Core重回DSA化，通过CUDA生态维持行业地位 [1] - 国内Ascend采用系统级统一设计：针对异构架构生态碎片化问题，提出同构ISA和混合执行模型，设计统一总线(UB)实现CPU/GPU/NPU编程统一和高效互连 [1] - SIMT与SIMD架构差异：SIMT编程灵活性高适合稀疏数据和复杂控制流，SIMD硬件效率优适合密集型向量运算，关键在于软硬件交付界面设计 [2] NPU技术特性 - NPU专为AI计算设计：在能效比和计算速度上优于CPU/GPU，适合移动设备、边缘计算和嵌入式AI，近年也应用于大模型训练推理 [3] - NPU硬件优势：指令架构简单(可嵌入ARM/RISC-V扩展指令集)、功耗低、内存使用模式单一，成为应对芯片出口管制的可行方案 [3] - 设计复杂度对比：CPU复杂度为1时，图形GPU为0.3-0.4，NPU不足0.1，核心是矩阵乘法和卷积运算的堆料设计 [4] NPU现存挑战 - 软件复杂度远超硬件：国产GPU卡因软件体验差导致数据中心利用率低下，高端算力紧缺与低端算力过剩并存 [5] - 内存架构缺陷：L1缓存有限且存在存储体冲突，缺乏SIMT的延迟隐藏机制，访存延迟直接暴露易造成计算核心空转 [5] - 生态碎片化：不同厂商NPU架构差异大，软件移植成本高，尚未经历GPU行业的标准化收敛过程 [5] GPU与NPU架构对比 - 历史演变相似性：早期显卡与当前NPU均为CPU远程控制的专用计算器，GPU通过集成独立控制单元实现功能进化 [6] - 控制层级差异：GPU采用"CPU→GPU→张量核心"三级控制链，NPU仅为"CPU→NPU"二级结构，缺乏自主控制能力 [7] - 英伟达关键突破：SIMT编程模型降低并行计算门槛，而NPU仍依赖外部CPU调度，难以适应大模型训练的实时策略调整 [7] 行业发展趋势 - AI任务复杂度提升：从单一推理向"训练+推理"全流程演进，驱动芯片架构向"高效计算+灵活控制"方向发展 [7] - 技术融合路径：国产NPU需引入SIMT前端并强化控制单元向GPU靠拢，同时GPU内部模块需DSA化 [7] - 英伟达算力宣传策略：H100的FP16算力989.4万亿次通过2:4稀疏度计算被宣传为1979.8万亿次，与实际密集运算指标存在差异 [4]