英伟达GB10,深度解读

文章核心观点 - 文章对英伟达与联发科合作推出的GB10片上系统(SoC)的CPU端内存子系统进行了深度技术分析,重点评估了其缓存层次结构、延迟、带宽以及与竞争对手AMD Strix Halo(基于Zen 5架构)的对比 [1][40] - 分析认为,GB10在CPU核心配置上追求高密度(20核),并通过减少缓存占用面积来实现,但其内存子系统设计存在权衡,例如L3缓存延迟较高、核心间延迟显著高于对手 [9][22][38][40] - 同时,GB10在特定方面表现突出,例如其LPDDR5X内存的延迟非常出色,且一个CPU集群能提供超过100 GB/s的外部读取带宽,这在客户端设计中是领先的 [12][17][40] 片上系统布局与CPU配置 - GB10采用双集群CPU设计,每个集群包含5个高性能Cortex X925核心和5个高密度Cortex A725核心,共计20个CPU核心 [3][23] - A725核心运行频率为2.8 GHz,X925核心在第一个集群最高频率为3.9 GHz,在第二个集群最高可达4.0 GHz [3] - 两个集群的L3缓存容量不对称:集群0为8 MB,集群1为16 MB,但使用A725核心访问时的延迟相同 [9] 缓存层次结构与延迟分析 - L1缓存:A725和X925核心均配备64 KB的L1指令和数据缓存,访问延迟为4个时钟周期 [5][10] - L2缓存: - A725核心配备512 KB、8路组相联L2缓存,延迟为9个周期(约3.2纳秒)[5] - X925核心配备2 MB、8路组相联L2缓存,延迟为12个周期 [7] - L3缓存: - A725核心访问L3缓存的延迟超过60个周期(>21纳秒),表现不佳 [5] - X925核心访问L3缓存的延迟约为56个周期(约14纳秒),与英特尔Arrow Lake的L3缓存延迟相当 [7] - 与AMD Zen 5(约48周期)相比,GB10的L3缓存延迟更高 [10] - 系统级缓存:GB10配备16 MB的系统级缓存,作为CPU的L4缓存,延迟约为42-47纳秒,其主要功能是促进CPU和GPU之间的高效数据共享,无需访问DRAM [8] - DRAM延迟:GB10的DRAM延迟表现亮眼,X925核心访问延迟约为113纳秒,A725核心约为136纳秒,优于Strix Halo和英特尔Meteor Lake(均超过140纳秒)[10][12] 内存带宽性能 - 单核带宽: - X925核心的L3缓存读取带宽接近90 GB/s,DRAM读取带宽为38 GB/s [14] - A725核心的L3缓存读取带宽约为55 GB/s,DRAM读取带宽为26 GB/s [14] - 单个AMD Zen 5核心的DRAM读取带宽超过50 GB/s,L3缓存读取带宽超过100 GB/s,高于GB10 [14] - 多核/集群带宽: - 集群0的读取带宽为63.14 GB/s,集群1的读取带宽为115.5 GB/s,显示两个集群的外部带宽不对称 [17] - 当所有A725核心参与时,读取带宽为144.2 GB/s;所有X925核心参与时,为127.2 GB/s;两个集群共同工作时,读取带宽为139 GB/s [17] - 与Strix Halo相比,GB10的CPU端带宽更高,但仍无法充分利用其256位LPDDR5X内存总线(理论带宽约301 GB/s),该总线主要服务于GPU [18][41] 异构集群设计与核心间延迟 - 文章指出,GB10的两个集群配置相同(均为5X925+5A725),但集群1(L3更大,带宽更高)侧重性能,集群0(L3更小)侧重密度,这种设计可能并非最优,完全异构化(如集群0全A725,集群1全X925)可能更利于操作系统调度和能效 [20][22][23] - 核心间延迟:GB10的核心间延迟总体偏高,集群内部最佳延迟(X925核心之间)为50-60纳秒,最差延迟(跨集群的A725核心之间)可达240纳秒 [36][37] - 与Strix Halo相比,GB10的跨集群延迟(约200纳秒)远高于后者(约100纳秒),集群内延迟也高于AMD(低于50纳秒)[38] 带宽竞争与GPU影响 - 在高带宽负载下,X925核心比A725核心更容易造成内存子系统资源争用,导致延迟上升 [27] - 集成GPU(iGPU)的高带宽需求会挤压CPU的可用带宽并显著增加CPU访问延迟:当GPU带宽达到231 GB/s时,CPU端的延迟会超过351纳秒;在极端情况下(高CPU+GPU带宽),X925核心的延迟可接近400纳秒 [31][33][35] 与竞争对手AMD Strix Halo的综合对比 - 核心与缓存策略:GB10通过20个高度异构的CPU核心和较小的缓存占用实现高密度;Strix Halo为16个Zen 5核心,拥有更小但更快的私有缓存和延迟更低、容量更大的L3缓存(32 MB)[10][40] - 优势领域:GB10的DRAM延迟(~113纳秒)和单个集群的外部读取带宽(>100 GB/s)表现突出,是其主要亮点 [12][17][40] - 设计共性:两款大型集成显卡芯片的256位内存总线主要面向GPU,CPU均无法完全利用其带宽,且GPU的高带宽需求都会对CPU性能造成压力 [41]

英伟达GB10,深度解读 - Reportify