为什么算力追赶这么难？前谷歌架构师现场黑板推演底层架构，看懂芯片底层逻辑里被忽视的“空间博弈”

文章核心观点 - 现代芯片设计的核心矛盾与挑战已从追求晶体管微缩（摩尔定律）转向优化数据移动的“距离”和“架构” [5][6] - 芯片中绝大部分成本、面积和能耗并非用于计算本身，而是消耗在数据搬运和同步上 [5] - 行业竞争焦点在于如何通过“逻辑折叠”、脉动阵列等架构创新，在物理层面缩短信号路径，以提升算力效率和性能 [1][6] - 低精度计算（如FP4、FP8）因其与裸片面积成平方级的缩放关系，在AI计算中具有显著的成本和能效优势 [12][25][27] 芯片设计的基本单元与成本构成 - 芯片最底层的基本单元是逻辑门（如与门、或门、非门），通过金属导线连接 [10] - AI芯片最核心的计算任务是矩阵乘法，其基础运算是乘加（multiply-accumulate）操作 [10] - 以一个4位数乘4位的乘加运算为例，需要16个与门来生成部分积，以及16个全加器来完成求和 [18][22] - 与门和全加器是芯片上最小和最大的基本逻辑门之一 [18][19] 数据移动的隐藏成本远超计算 - 在传统处理器（如CPU、早期GPU）架构中，数据从寄存器文件移动到算术逻辑单元（ALU）需要复杂的选择电路（多路复用器） [28][30] - 一个操作p位数据、有n个输入的多路复用器，需要n×p个与门和(n-1)×p个或门来构建 [30][32] - 仅将数据从寄存器移动到逻辑单元的电路成本，就比执行乘加运算的逻辑单元本身昂贵许多倍 [12][32][33] - 在示例中（n=8, p=4, q=4），数据移动消耗了24×p个门，而乘加器本身仅消耗4×p个门 [32] 脉动阵列：优化计算与通信比的关键架构 - 脉动阵列是为了解决数据移动成本过高而诞生的架构，核心思想是将矩阵乘法中外层循环固化到硬件中 [37][39] - 该架构允许将权重矩阵长期存储在阵列内部的寄存器中，只需缓慢地加载一次，从而大幅减少与外部寄存器文件的通信带宽 [41][44][45] - 目标是实现计算量（与阵列尺寸x×y成正比）呈平方级增长，而通信量（仅与x或y成正比）只呈线性增长 [40][41] - 早期TPU采用128x128规模的脉动阵列，这是实现矩阵乘法已知最高效的电路之一 [46] 精度、面积与性能的权衡 - 芯片中精度位宽与裸片面积之间存在平方级的缩放关系，这是低精度算术在AI中如此有效的主要原因 [12][25][27] - 因此，将计算精度减半（例如从FP8降至FP4），理论上可获得接近四倍的面积效率提升，从而大幅增加算力 [25][26] - NVIDIA的产品规格已反映这一点，例如在B300及后续产品中，FP4算力达到FP8的三倍 [26] - 芯片设计需在FP4、FP8等不同精度电路的面积分配上做出权衡，以满足不同客户需求和功耗预算 [23] 时钟速度、流水线与吞吐量的博弈 - 芯片通过全局时钟周期（例如2GHz）来同步所有并行单元的操作，时钟由寄存器介导 [47][49] - 提高时钟速度受限于逻辑路径的延迟，必须在下一个时钟周期到来前完成计算 [49] - 通过插入流水线寄存器将长逻辑路径切分，可以提升时钟频率，但代价是增加了用于同步的寄存器面积 [50][52] - 如果将时钟速度提得过高，几乎所有的芯片面积都将用于流水线寄存器，反而会扼杀真正的算力吞吐量 [12][57][58] FPGA与ASIC的设计哲学与取舍 - FPGA（现场可编程门阵列）与ASIC使用相似的概念模型，但FPGA通过可编程的多路复用器和查找表（LUT）来模拟ASIC的功能 [61][62][67] - FPGA的优势在于灵活性高、初始成本低（约1万美元），适合需求频繁变化的应用；ASIC则在量产时成本（低一个数量级）和能效上更具优势 [62] - FPGA比ASIC慢且贵的主要原因在于其通用结构带来的开销，例如一个4输入查找表需要约32个逻辑门来实现，而ASIC中实现相同功能的电路可能只需3个门 [68][79] - FPGA常用于需要确定性延迟的场景（如高频交易），因为其排除了CPU中缓存等带来的非确定性因素 [60][81] CPU、GPU与TPU的架构差异 - CPU核心远比GPU的流式多处理器（SM）或FPGA的查找表复杂且庞大，其大量面积用于缓存、分支预测器等组件以支持复杂的串行控制流 [87][88] - 分支预测器是CPU核心的重要组成部分，用于在分支指令结果确定前预测执行路径，以维持高时钟频率下的指令流水线 [89] - GPU通过剥离分支预测等组件，使用更紧凑的寄存器文件，并集成大量小型计算核心（SM）来获得高并行度 [88] - 从宏观架构看，GPU可以视为将许多“微型的TPU”（即SM及其内部的Tensor Core/矩阵单元）铺满整个芯片 [12][97] - TPU采用更粗粒度的设计，整个芯片仅包含少数几个大型脉动阵列和向量单元，更适合大规模的矩阵乘法，能更好地摊薄数据移动的开销 [97][98] 内存系统：缓存与便签内存 - CPU中非确定性延迟的主要来源是缓存系统，其访问速度取决于运行时上下文，可能导致缓存命中或未命中 [81][82] - 与CPU的缓存不同，TPU等AI芯片常采用便签内存设计，软件通过显式的不同指令来访问片内便签内存和片外HBM，从而获得确定性的延迟 [84] - 缓存对于CPU以合理速度运行至关重要，但便签内存将内存管理的控制权交给了软件，消除了硬件预测带来的不确定性 [84] 生物启发与能效思考 - 大脑的运作方式与芯片有显著不同，其批处理大小为1，且运行时钟频率极低（约1MHz量级） [12][93] - 芯片的主要能耗来自动态功耗，即晶体管在0和1状态间切换时对电容充放电消耗的能量 [94] - 理论上，大幅降低芯片时钟频率可以减少状态切换次数，从而降低能耗，但这并不会带来能效的阶跃式提升，因为单位计算所需的能量并未改变 [93][94]