文章核心观点 - 文章详细分析了AMD Zen系列处理器的架构特点,特别是Infinity Fabric互连系统和CCD(Core Complex Die)的设计,探讨了不同代际Zen处理器在内存带宽和延迟方面的表现差异,以及这些差异对实际应用性能的影响 [2][4][5][7][14][28][38][45][55][62][72][81][86][91] 架构设计 - AMD自Zen架构以来,一直采用多级互连来创建模块化系统,通过Infinity Fabric实现灵活的系统拓扑调整 [2] - 自Zen 2开始,AMD将CPU核心放在CCD上,CCD通过Infinity Fabric On-Package (IFOP)接口连接到IO芯片,形成中心辐射模型,使AMD的核心数量高于英特尔 [4] - Zen 3/4/5系统拓扑显示,CCD通过IFOP链路连接到IO芯片,每个CCD的IFOP链路在Infinity Fabric时钟(FCLK)下提供带宽 [6] 带宽与延迟分析 - 文章通过实际测试数据,分析了不同代际Zen处理器在内存带宽和延迟方面的表现 [7][8][9][10][11][12][13][15][16][17][18][19][20][21][22][23][24][25][26][27][30][31][32][33][34][35][36][37][38][39][40][41][42][43][44][46][47][48][49][50][51][52][53][54][56][57][58][59][60][61][63][64][65][66][67][68][69][70][71][73][74][75][76][77][78][79][80][82][83][84][85][87][88][89][90] - Zen 4在多个带宽测试线程竞争时,延迟会超过400纳秒 [9] - 将带宽负载推向另一个CCD可显著改善延迟 [10] - Zen 5在快速DDR5配置下,延迟表现优于Zen 4 [40] - Zen 2在CCD级争用测试中,延迟表现优于Zen 4 [52] 实际应用性能 - 文章通过运行Cyberpunk 2077、GHPC、Baldur's Gate 3、RawTherapee等实际应用,分析了不同代际Zen处理器在这些应用中的内存带宽和延迟表现 [74][75][76][77][78][79][80][81][82] - VCache芯片通过减少L3未命中流量,显著降低了L3未命中的服务延迟,提高了游戏性能 [75] - RawTherapee的带宽需求非常大,足以填满队列,导致延迟峰值超过200纳秒 [79] 总结与展望 - AMD的Zen系列基于具有多个互连级别的可扩展系统架构,但设计可扩展架构并不容易,存在"吵闹邻居"问题 [86] - 在大多数情况下,这些限制在典型的客户端应用程序中并不常见 [91] - Zen 5表明AMD正在关注确保延迟敏感任务的良好基准性能水平,即使在内存子系统非常繁忙的情况下也是如此 [91]
一文看懂Infinity Fabric
半导体行业观察·2024-11-26 09:25