脉动阵列
搜索文档
英伟达的最大威胁:谷歌TPU凭啥?
半导体行业观察· 2025-12-26 09:57
谷歌TPU的发展背景与动机 - 谷歌作为全球最大的信息检索系统公司,其使命“组织全球信息”高度依赖机器学习技术,该技术自2000年代中期起已广泛应用于搜索排序、垃圾邮件过滤、广告点击率预测等核心业务,为公司创造了每年数十亿美元的收入[10][11] - 在深度学习兴起前,谷歌通过大规模通用服务器集群支撑复杂模型训练,例如一篇2012年的论文记录使用一个由1,000台机器、共16,000个CPU核心组成的集群,连续运行约三天来训练一个拥有10亿连接、处理1000万张图像的模型[11][12] - 随着模型规模和计算密度急速扩张,依赖通用CPU集群的方式触及性能与能耗瓶颈,促使谷歌转向专用机器学习加速器路线[13] - 谷歌于2011年启动Google Brain项目,旨在结合深度神经网络与公司庞大的分布式计算基础设施和海量数据,训练此前规模难以企及的神经网络系统[13] - 早期深度学习开发完全基于CPU运行,直到Alex Krizhevsky在2013年加入谷歌后,才引入GPU进行神经网络训练,谷歌随后于2014年决定购买约40,000个NVIDIA GPU,花费约1.3亿美元[18][23] - 尽管GPU在训练上表现优异,但在全球范围内大规模部署模型进行推理时面临挑战,例如,若每位Android用户每天仅使用三分钟语音识别,通过CPU进行深度学习推理将迫使公司服务器数量增加两到三倍,成本高昂[24][25] - 依赖GPU存在潜在效率损失和单一供应商的战略风险,促使谷歌考虑定制硬件方案,目标是在推理任务上相较GPU实现约10倍的成本性能优势[26][27] 第一代TPU (TPU v1) 的诞生与设计 - 谷歌在15个月内完成了从概念到数据中心部署的壮举,于2015年初成功部署第一代TPU[4][42] - 项目快速成功的关键因素包括:团队的单一日程焦点、采用700 MHz的时钟频率和完全调试的28nm工艺,以及数据中心部署团队的高效协调[42] - TPU v1的架构灵感源于1978年H.T. Kung和Charles E. Leiserson提出的“脉动阵列”理论,该设计通过有节奏的数据流动和计算,非常适合大规模矩阵运算[31][33][50] - TPU v1的核心是一个256x256的脉动阵列矩阵乘法单元,执行8位整数乘法,采用量化技术以节省芯片面积和能耗[62][65] - TPU v1采用CISC设计,仅有约20条指令,通过PCIe接口从主机接收指令,关键指令包括读取主机内存、读取权重、执行矩阵乘法/卷积、应用激活函数以及写回主机内存[66][67][68][69][70][72] - 软件栈方面,谷歌开发了驱动程序使其深度学习框架TensorFlow能够与TPU v1协同工作,确保与CPU和GPU软件栈的兼容性[73] - TPU v1由台积电采用28nm工艺制造,芯片面积的24%用于矩阵乘法单元,29%用于统一缓冲区内存,仅2%用于控制逻辑,体现了架构的简洁高效[74][75] - 在性能上,TPU v1专注于推理任务,其拥有NVIDIA K80 GPU 25倍的乘累加单元和3.5倍的片上内存,在推理速度上比K80 GPU和Intel Haswell CPU快约15至30倍,能源效率更是高出25至29倍[78][79] TPU的迭代演进与技术升级 - **TPU v2 (2017)**: 定位为服务端AI推理和训练芯片,架构上进行多项重大改变,包括引入通用向量单元、将矩阵单元作为向量单元的卸载、采用高带宽内存,并添加互连以实现高带宽扩展,其核心采用超长指令字架构和线性代数指令集[82][83][90][91][92] - **TPU v3 (2018)**: 在v2基础上温和升级,矩阵单元和HBM容量增加两倍,时钟速率、内存带宽和芯片间互连带宽提升1.3倍,算力达420TFlops,内存128GB,并首次引入分布式训练框架和液冷技术[95] - **TPU v4i (2020)**: 定位为服务器端推理芯片,单核设计,增加了片上SRAM存储,引入四维张量DMA引擎和共享片上互连,时钟频率达1.05 GHz[99][100][104][106][108] - **TPU v4 (2021)**: 采用7nm工艺,峰值算力275TFLOPS,性能全球领先,通过引入光路交换机解决大规模集群的互连规模和可靠性问题,并公开了对稀疏模型的支持[114][117] - **TPU v5e (2023)**: 强调成本效益,专为大模型和生成式AI打造,与TPU v4相比,每美元训练性能提升高达2倍,每美元推理性能提升高达2.5倍,成本不到TPU v4的一半,支持从13B到2万亿参数的模型[119][120][123][126] - **TPU v5p (2023)**: 性能大幅提升,浮点运算次数和内存带宽分别提升2倍和3倍,大语言模型训练速度实现2.8倍的代际提升,提供459 teraFLOPS的bfloat16性能或918 teraOPS的Int8性能,支持95GB高带宽内存[127] - **TPU v6/Trillium (2024)**: 训练效果提高4倍以上,推理吞吐量提高3倍,能源效率提高67%,高带宽内存容量和芯片间互连带宽均实现翻倍,在12个Pod规模下扩展效率高达99%[129][133] - **TPU v7/Ironwood (2025)**: 采用3nm制程工艺,实现全方位突破,FP8峰值算力高达4614TFlops,较第二代TPU提升3600倍,配备192GB的HBM3E显存,单芯片内存带宽达7.2TBps,并首次在TPU系列中支持FP8计算[142][143][145] TPU v7的核心架构创新 - 应用3D堆叠技术,通过混合键合将逻辑层与内存层以10微米间距堆叠,减少信号延迟,并将功耗降低30%[147] - 引入新型计算核心FlexCore,每个核心包含4096个乘累加单元,支持FP32、FP16、BF16、FP8混合精度计算,并采用三级缓存结构,其中L3缓存容量达64MB/核心[148] - FlexCore集成了稀疏计算加速器,通过动态稀疏化技术,在训练中可自动屏蔽80%的零值数据,提升计算效率[149] - 采用光互联技术,在芯片上直接集成激光器和光调制器实现硅光子集成,利用波分复用技术使单链路带宽达1.6TB/s,将芯片间通信延迟从第六代的20微秒降低至5微秒[150] 软件生态与系统优化 - 编译器XLA得到显著改进,通过优化技术使模型在TPU v7上的运行速度提高30%[152] - 分布式训练框架针对大规模集群优化,在训练万亿参数语言模型时,训练时间较上一代缩短40%[153][154] - 配备增强版SparseCore,专为处理推荐系统等场景中的超大稀疏嵌入而设计,能大幅提升相关计算效率[154] - Pathways机器学习运行时在跨芯片计算中发挥关键作用,能高效协调数万个TPU芯片,在训练大型语言模型时可将效率提高50%[155] 应用表现与市场意义 - TPU v7在超大规模模型训练中展现卓越性能,其高算力、大内存和高带宽能显著缩短训练时间,并有望降低30%至50%的总体训练成本[156][157][158] - 在AI推理场景,特别是针对混合专家模型,TPU v7通过软硬件协同优化,可实现推理延迟降低50%以上,成本降低40%以上[158][160][161] - TPU系列的成功迭代证明了定制化AI加速硬件的可行性与巨大潜力,挑战了NVIDIA GPU在AI计算领域的绝对主导地位,表明市场存在多元化的竞争路径[5][163]
冯诺依曼架构的新替代方案
半导体行业观察· 2025-12-24 10:16
文章核心观点 - 人工智能对计算能力和能效的需求激增,传统半导体渐进式改进和冯·诺依曼架构已无法满足,行业需要一种全新的硅芯片架构 [1] - Ambient Scientific公司通过其DigAn技术和GPX系列AI处理器,提供了一种创新的“可配置矩阵计算机”方案,从根本上解决了传统架构在AI计算中的内存访问和并行计算效率低下问题 [9][19] - 该方案在性能和功耗上实现了巨大突破,性能可比MCU高100多倍,或在同等性能下能耗不到GPU的1%,为边缘AI和数据中心应用带来了变革潜力 [13][19] 行业背景与挑战 - 人工智能领域对计算能力和电力的需求巨大,半导体行业难以满足,边缘AI设备同样受限于处理器性能慢和功耗高 [1] - 大型语言模型一次推理可能需要1000亿到10000亿次运算,传统架构执行如此海量运算时,内存访问时间成为关键瓶颈 [4] - 传统CPU、GPU或NPU等架构,其速度和功耗仍受限于内存访问,无法将足够内存紧密靠近计算单元 [5] 传统架构的局限性 - 经典的冯·诺依曼架构擅长处理顺序指令,但不适用于需要大规模并行矩阵计算的人工智能模型 [4] - 将神经网络工作负载编译到冯·诺依曼架构会产生海量运算,且内存与计算模块物理分离导致性能低下、功耗高、成本昂贵 [4][5] - 脉动阵列在概念上更契合神经网络,但以往硅芯片实现难以做到密集互连,且同样存在内存访问问题 [6][8] Ambient Scientific的创新解决方案 - 公司开发了DigAn技术,能够在芯片级制造“可配置矩阵计算机”,其核心是一种新型的“模拟MAC”计算单元 [9] - 模拟MAC针对占AI工作负载95%的MAC运算优化,并支持内存计算,通过HyperPort 3D内存架构实现内存元件在MAC单元上的垂直堆叠,解决了内存与计算分离的问题 [11] - 该技术将模拟MAC模块排列成与神经网络拓扑对应的形状,每个DigAn单元是一个独立单片电路,可在一个周期内计算一整层神经元 [11] 性能与功耗突破 - 一个DigAn计算块可以在一个周期内计算一个1×32×8矩阵,而传统AI处理器需要38,600个周期 [13] - 一个典型的1×32×8神经网络矩阵的32层运算,在传统架构中需要1,235,200个时钟周期,而在DigAn矩阵计算机中仅需32个周期 [13] - 将运算次数从1,235,200次减少到32次,带来了显著提升:性能比同等功耗的典型MCU高出100多倍,或性能与典型GPU相同但能耗不到其1% [13] GPX系列芯片产品化 - GPX芯片系列是DigAn技术的实现,将DigAn模块组合成可扩展的AI处理器内核(MX8内核)以适应不同应用 [14] - 截至2025年底,GPX系列包括GPX10和GPX10 Pro,其中GPX10 Pro采用两组各包含五个MX8内核的集群,是一款集成Arm Cortex-M4F控制器的完整系统级芯片(SoC) [16] - 尽管底层技术全新,但GPX处理器支持TensorFlow、PyTorch等主流机器学习框架,并通过Nebula SDK提供完整工具链,便于工程师使用熟悉平台进行开发 [18] 未来前景 - 由于MX8 AI内核易于扩展,产品路线图设想未来的GPX设备可扩展到8000个内核,用于数据中心服务器和超级计算机 [19] - 对于优先考虑性能和功耗的AI系统开发者,这些新芯片和DigAn架构预示着AI处理变革时代的到来 [19]