为什么算力追赶这么难?前谷歌架构师现场黑板推演底层架构,看懂芯片底层逻辑里被忽视的“空间博弈”

文章核心观点 - 现代芯片设计的核心矛盾与挑战已从追求晶体管微缩(摩尔定律)转向优化数据移动的“距离”和“架构” [5][6] - 芯片中绝大部分成本、面积和能耗并非用于计算本身,而是消耗在数据搬运和同步上 [5] - 行业竞争焦点在于如何通过“逻辑折叠”、脉动阵列等架构创新,在物理层面缩短信号路径,以提升算力效率和性能 [1][6] - 低精度计算(如FP4、FP8)因其与裸片面积成平方级的缩放关系,在AI计算中具有显著的成本和能效优势 [12][25][27] 芯片设计的基本单元与成本构成 - 芯片最底层的基本单元是逻辑门(如与门、或门、非门),通过金属导线连接 [10] - AI芯片最核心的计算任务是矩阵乘法,其基础运算是乘加(multiply-accumulate)操作 [10] - 以一个4位数乘4位的乘加运算为例,需要16个与门来生成部分积,以及16个全加器来完成求和 [18][22] - 与门和全加器是芯片上最小和最大的基本逻辑门之一 [18][19] 数据移动的隐藏成本远超计算 - 在传统处理器(如CPU、早期GPU)架构中,数据从寄存器文件移动到算术逻辑单元(ALU)需要复杂的选择电路(多路复用器) [28][30] - 一个操作p位数据、有n个输入的多路复用器,需要n×p个与门和(n-1)×p个或门来构建 [30][32] - 仅将数据从寄存器移动到逻辑单元的电路成本,就比执行乘加运算的逻辑单元本身昂贵许多倍 [12][32][33] - 在示例中(n=8, p=4, q=4),数据移动消耗了24×p个门,而乘加器本身仅消耗4×p个门 [32] 脉动阵列:优化计算与通信比的关键架构 - 脉动阵列是为了解决数据移动成本过高而诞生的架构,核心思想是将矩阵乘法中外层循环固化到硬件中 [37][39] - 该架构允许将权重矩阵长期存储在阵列内部的寄存器中,只需缓慢地加载一次,从而大幅减少与外部寄存器文件的通信带宽 [41][44][45] - 目标是实现计算量(与阵列尺寸x×y成正比)呈平方级增长,而通信量(仅与x或y成正比)只呈线性增长 [40][41] - 早期TPU采用128x128规模的脉动阵列,这是实现矩阵乘法已知最高效的电路之一 [46] 精度、面积与性能的权衡 - 芯片中精度位宽与裸片面积之间存在平方级的缩放关系,这是低精度算术在AI中如此有效的主要原因 [12][25][27] - 因此,将计算精度减半(例如从FP8降至FP4),理论上可获得接近四倍的面积效率提升,从而大幅增加算力 [25][26] - NVIDIA的产品规格已反映这一点,例如在B300及后续产品中,FP4算力达到FP8的三倍 [26] - 芯片设计需在FP4、FP8等不同精度电路的面积分配上做出权衡,以满足不同客户需求和功耗预算 [23] 时钟速度、流水线与吞吐量的博弈 - 芯片通过全局时钟周期(例如2GHz)来同步所有并行单元的操作,时钟由寄存器介导 [47][49] - 提高时钟速度受限于逻辑路径的延迟,必须在下一个时钟周期到来前完成计算 [49] - 通过插入流水线寄存器将长逻辑路径切分,可以提升时钟频率,但代价是增加了用于同步的寄存器面积 [50][52] - 如果将时钟速度提得过高,几乎所有的芯片面积都将用于流水线寄存器,反而会扼杀真正的算力吞吐量 [12][57][58] FPGA与ASIC的设计哲学与取舍 - FPGA(现场可编程门阵列)与ASIC使用相似的概念模型,但FPGA通过可编程的多路复用器和查找表(LUT)来模拟ASIC的功能 [61][62][67] - FPGA的优势在于灵活性高、初始成本低(约1万美元),适合需求频繁变化的应用;ASIC则在量产时成本(低一个数量级)和能效上更具优势 [62] - FPGA比ASIC慢且贵的主要原因在于其通用结构带来的开销,例如一个4输入查找表需要约32个逻辑门来实现,而ASIC中实现相同功能的电路可能只需3个门 [68][79] - FPGA常用于需要确定性延迟的场景(如高频交易),因为其排除了CPU中缓存等带来的非确定性因素 [60][81] CPU、GPU与TPU的架构差异 - CPU核心远比GPU的流式多处理器(SM)或FPGA的查找表复杂且庞大,其大量面积用于缓存、分支预测器等组件以支持复杂的串行控制流 [87][88] - 分支预测器是CPU核心的重要组成部分,用于在分支指令结果确定前预测执行路径,以维持高时钟频率下的指令流水线 [89] - GPU通过剥离分支预测等组件,使用更紧凑的寄存器文件,并集成大量小型计算核心(SM)来获得高并行度 [88] - 从宏观架构看,GPU可以视为将许多“微型的TPU”(即SM及其内部的Tensor Core/矩阵单元)铺满整个芯片 [12][97] - TPU采用更粗粒度的设计,整个芯片仅包含少数几个大型脉动阵列和向量单元,更适合大规模的矩阵乘法,能更好地摊薄数据移动的开销 [97][98] 内存系统:缓存与便签内存 - CPU中非确定性延迟的主要来源是缓存系统,其访问速度取决于运行时上下文,可能导致缓存命中或未命中 [81][82] - 与CPU的缓存不同,TPU等AI芯片常采用便签内存设计,软件通过显式的不同指令来访问片内便签内存和片外HBM,从而获得确定性的延迟 [84] - 缓存对于CPU以合理速度运行至关重要,但便签内存将内存管理的控制权交给了软件,消除了硬件预测带来的不确定性 [84] 生物启发与能效思考 - 大脑的运作方式与芯片有显著不同,其批处理大小为1,且运行时钟频率极低(约1MHz量级) [12][93] - 芯片的主要能耗来自动态功耗,即晶体管在0和1状态间切换时对电容充放电消耗的能量 [94] - 理论上,大幅降低芯片时钟频率可以减少状态切换次数,从而降低能耗,但这并不会带来能效的阶跃式提升,因为单位计算所需的能量并未改变 [93][94]

为什么算力追赶这么难?前谷歌架构师现场黑板推演底层架构,看懂芯片底层逻辑里被忽视的“空间博弈” - Reportify