乱序执行
搜索文档
Arm最强桌面核心:Cortex X925 表现几何?
半导体行业观察· 2026-03-04 09:53
文章核心观点 Arm的Cortex X925处理器核心在性能上已达到与AMD Zen 5和Intel Lion Cove顶级桌面处理器相当的水平,标志着Arm成功进军高性能CPU市场。该核心通过强大的分支预测、大规模乱序执行引擎和优化的微架构设计,在4 GHz的适中频率下实现了卓越的每时钟周期性能(IPC),使其在笔记本电脑乃至桌面应用场景中具备强大竞争力[2][3][5][60]。 架构设计与性能定位 - Cortex X925是一款以最大化性能为目标的10核处理器,在重排序能力上强于AMD Zen 5,L2缓存容量与Intel最新P系列处理器相当[5] - 该核心摒弃了前几代用于降低功耗和面积的妥协设计,取消了低成本配置选项,所有缓存均配备奇偶校验或ECC纠错机制[7] - 其设计目标是在4 GHz的适中时钟频率下,通过高IPC来弥补与x86竞争对手在频率上的差距,从而在整体性能上与之抗衡[50][53][60] 分支预测器性能 - Cortex X925的分支预测器表现一流,能够识别极长的重复模式,其性能与AMD自Zen 2以来强大的分支预测器非常相似[9] - 其一级分支目标缓存(BTB)容量巨大,最多可跟踪2048个分支,更高级别的BTB最多可跟踪16384个分支,策略上更接近Zen 5[11] - 在SPEC CPU2017测试中,X925在多数测试中的分支预测准确率与Zen 5大致相当,甚至在505.mcf和541.leela等挑战性测试中表现更佳[12] 前端与解码能力 - X925摒弃了前几代的MOP缓存,其前端每周期可处理10条指令[19][21] - 使用2 MB大页面且代码能放入64 KB指令缓存时,可达到每周期10条指令的吞吐量。其前端每周期吞吐量高于x86-64同类产品,但由于频率较低,实际吞吐量略低[21] 乱序执行与后端资源 - Cortex X925的重排序缓冲区(ROB)容量估计约为525条指令,与Intel Lion Cove(576条)处于同一水平,并优于AMD Zen 5(448条)[27][30] - 其寄存器文件、加载队列(245条目)、存储队列(109条目)等资源容量与Zen 5和Lion Cove相当[27] - 主要不足在于其向量执行宽度为128位,相应的寄存器文件条目较宽,而AMD和Intel的大核心拥有更宽的向量寄存器和更多可重命名寄存器[27] 执行单元与调度器配置 - 整数部分布局旨在实现高吞吐量,拥有八个ALU端口和三个分支单元,分布在四个调度器中[29] - 浮点运算单元(FPU)拥有六条都能处理浮点加、乘、乘加及向量整数运算的流水线,三个浮点调度器总容量巨大,几乎与AMD旧Bulldozer架构的双线程统一调度器相当[36] - 尽管向量宽度为128位,但其高调度器容量和管道数量应能在向量化应用程序中提供良好性能[38] 内存子系统 - 拥有四个地址生成单元(AGU),其中两个可处理存储操作[40] - 采用两级TLB架构:L1 DTLB为96条目全相联,L2 TLB为2048条目8路组相联,增加6周期延迟。相比之下,Zen 5的L2 DTLB容量更大(4096条目),但延迟也更高(7周期)[41] - L1数据缓存为64 KB,延迟4周期,可实现64字节/时钟周期的加载带宽。加载/存储转发机制有所改进,但相比最新的Intel和AMD内核,在地址完全匹配时无法实现零延迟转发[43][46] 缓存层次结构 - L1数据缓存采用复杂的重引用间隔预测(RRIP)替换策略,带宽高于前代[46] - L2缓存提供2MB(8路)或3MB(12路)选项,测试的2MB版本延迟为12周期,读取带宽为每周期32字节[48] - 与AMD类似,L2缓存严格包含L1数据缓存,可作为窥探过滤器[48] SPEC CPU2017性能表现 - **整数性能**:Cortex X925的整数运算得分与Intel和AMD性能最高的桌面级核心误差范围很小。在核心密集型工作负载中与更高频率的x86核心不相上下,在525.x264等测试中能以更少指令并保持IPC优势完成任务,在分支预测挑战性工作负载(如541.leela, 505.mcf)中表现出色[50][52] - **浮点性能**:X925在浮点测试中总体落后于Zen 5,但与Intel Lion Cove性能相媲美。其IPC优于竞争对手,但在部分测试(如507.cactuBSSN, 521.wrf, 549.fotonik3d, 554.roms)中,因aarch64指令集效率问题,需要执行远多于x86-64的指令量,其中554.roms的指令数甚至是Zen 5的两倍多,这给乱序执行资源带来额外压力[55][56][58] 市场意义与挑战 - Arm现已拥有性能足以满足笔记本电脑乃至台式机应用需求的内核,证明了在适中频率下实现高性能的可行性[60] - 获得高性能核心只是成功的一半,在消费级市场(如游戏)中,强大的内存子系统比高核心吞吐量更重要,更大的L3缓存选项可能有益[60] - Arm仍需应对x86-64强大的软件生态系统挑战,并依赖合作伙伴来实现其市场愿景[60]
一颗RISC-V芯片,打破常规!
半导体行业观察· 2025-09-01 09:17
公司背景与产品定位 - Condor Computing是晶心科技子公司 专注于开发可授权RISC-V内核 商业模式与Arm和SiFive类似[2] - 公司于2023年成立 但晶心科技在成立前已具备RISC-V设计经验并开发过多个RISC-V内核[2] - 核心产品Cuzco定位高性能RISC-V领域 与SiFive P870和Veyron V1同级 性能超越阿里巴巴T-HEAD C910和SiFive P550等已量产核心[2] 核心架构设计 - Cuzco采用8位宽乱序设计 配备256个ROB条目 在台积电5nm工艺下目标时钟频率为2GHz(慢速-慢速)至2.5GHz(典型-典型)[6] - 流水线包含12个阶段 错误预测惩罚为10周期 采用高度可配置设计 支持可变执行片数量 L2 TLB大小 簇外总线宽度及L2/L3容量调整[6][7] - 核心可组成最多8核心的簇 通过CHI总线连接系统 支持客户自定义片上网络实现多簇扩展[7] 前端与分支预测 - 采用TAGE-SC-L分支预测器 结合标记几何 统计校正器和循环预测器技术 基础组件使用16K双峰计数器条目表[11][12] - 配备8K入口两级分支目标缓冲区(BTB) 32入口返回堆栈及间接分支预测器[14] - 指令缓存为64KB八路组相联 配合64条目全相联TLB 每周期最多处理8条指令[14] 重命名与调度创新 - 首创"基于时间"的静态调度方案 通过时间资源矩阵(TRM)预测未来256周期资源利用率 搜索窗口为8周期[18][23] - 与传统动态调度相比 该方案节省功耗并降低复杂度 无需修改ISA或编译器即可获得最佳性能[4][18] - 在基准测试中 Specint2k6/GHz性能与默认配置相比变化范围在-1%至+4.2%之间[27] 执行单元配置 - 执行资源分组为多个切片 每个切片包含一对流水线 支持所有RISC-V指令[33] - 每个切片配备4个寄存器读取端口和2个写入端口 每周期最多执行2个微操作[33] - 支持256/512位VLEN矢量处理 每切片含1个FMA单元 FP32峰值吞吐达每周期8次FMA操作 FP加法延迟2周期 乘法及乘加延迟4周期[34] 内存子系统 - 加载/存储单元含64项加载队列 64项存储队列和64项数据缓存未命中队列[36] - L1D缓存为64KB八路组相联 延迟4周期 带宽64B/周期 L2缓存最大8MB 延迟18周期 L3缓存最大256MB 延迟38周期[38] - 采用物理索引物理寻址(PIPT)机制 配备64条目全相联数据TLB L2 TLB支持1K/2K/4K条目可配置[38] 集群与缓存系统 - 每集群8核心共享L3缓存 通过交叉开关连接 切片数量与核心数量匹配 每切片提供64B/周期带宽[43] - 系统请求通过64B/周期CHI接口发出 集群外拓扑由实施者自定义[43] - 缓存未命中采用重放机制 L3命中会导致消费指令执行三次(分别对应L1D命中预测 L2命中预测和实际L3命中)[50] 技术突破与行业意义 - 首次在RISC-V领域实现基于时间的静态调度方案 突破传统乱序执行设计范式[52] - 保持完全软件兼容性 无需依赖编译后微码缓存 避免代码局部性差时的性能衰减[52] - 通过指令重放机制有效处理可变延迟指令 重放率为每1000条指令70.07次[27][29]
高通服务器芯片,深度解读
半导体行业观察· 2025-05-30 09:55
云计算市场背景 - 2010年左右云计算在AMD Opteron和英特尔Xeon处理器推动下兴起[1] - 高通凭借移动SoC市场优势进军服务器芯片领域[1] - 服务器芯片多核心特性削弱了AMD和英特尔在单线程性能的优势[1] - 高通利用10nm FinFET工艺与英特尔14nm节点竞争[1] Falkor CPU架构设计 - 采用4宽aarch64核心设计,支持64位Arm指令集[4] - 每个核心功耗低于2.5瓦,全核负载下功耗远低于120瓦[7] - 配备24KB L0和64KB L1指令缓存,总容量88KB[9][11] - 采用独特的L0/L1缓存设置,在指令缓存容量上领先同期产品[13] - 分支预测采用多历史表机制,类似TAGE预测器[16] - 配备16条目返回堆栈和两级间接目标数组处理分支[19][20] 性能参数对比 - Centriq 2400系列48核芯片TDP为120瓦[7] - 与英特尔Xeon对比:48核Centriq 2460 vs 28核Xeon Platinum 8180(205W)[8] - 浮点运算延迟:32位FP FMA 5周期延迟,128位向量FP FMA 5周期延迟[30] - L2缓存延迟15周期,比Kryo的20+周期有显著改进[53] - L3缓存延迟40.9纳秒(106周期),带宽超500GB/s[65] 内存子系统 - 支持6通道DDR4内存,理论带宽128GB/s[69] - 内存延迟121.4纳秒,高负载下可能超500纳秒[69] - 采用直写式L1D缓存,通过WCC结构实现回写式缓存优势[34][37] - 加载到使用延迟3周期,支持索引寻址无性能损失[32] 系统架构 - 采用双核集群(双工)作为基本构建模块[46] - 使用双向分段环形总线连接核心和IO,带宽64B/周期[56] - 配备12个5MB L3缓存切片,总容量60MB[61] - 支持32个PCIe Gen3通道,集成传统南桥功能[72] 性能表现 - SPEC CPU2017测试中整数性能领先Cortex A72 21.6%,浮点领先53.4%[74] - 在内存密集型工作负载如505.mcf和502.gcc表现最佳[76] - IPC在缓存友好型工作负载如538.imagick表现出色[78] - 7-Zip多线程测试中显著领先Cortex A72[82] - 矢量工作负载处理能力较弱,但整体仍优于A72[84] 市场定位与挑战 - 针对主流云应用场景优化,放弃多插槽配置[72] - 2017年时48核设计在单路服务器领域具有核心数量优势[89] - 面临x86-64强劲竞争和Arm软件生态不成熟挑战[90] - 内存子系统性能优于同期Arm产品但不及英特尔Skylake[90]