Workflow
深入探秘英特尔最新GPU架构
英特尔英特尔(US:INTC) 半导体行业观察·2025-03-20 09:19

英特尔Xe3 GPU架构进展 - 英特尔Xe3硬件设计已完成,软件工作正在进行中,部分进展可在开源存储库中查看[1] - Xe3渲染切片支持最多16个Xe核心,相比前代Xe/Xe2的4核心实现显著扩展[4] - Xe3理论最大配置可达256个Xe核心和32768个FP32通道,超越Nvidia RTX 5090的21760通道[7] - 公司通过增加渲染切片核心数量,向AMD/Nvidia的多核心设计靠拢(如RX 6900XT每引擎10WGP,RTX 4090每GPC含8SM)[8] Xe矢量引擎(XVE)升级 - Xe3 XVE线程容量从8提升至10个,寄存器文件分配更灵活(64KB按32条目块分配)[10] - 记分牌令牌总数从Xe2的128个增至320个,提升内存级并行性[11] - 新增标量寄存器s0,优化收集发送指令效率,扩展线程依赖寄存器支持[13] 指令集与功能增强 - 新增FCVT指令的饱和度修饰符,支持HF8/BF8两种8位浮点格式[14] - XMX单元引入xdpas指令,实现稀疏矩阵运算优化[14] - 光线追踪新增子三角形不透明度剔除(STOC)技术,测试显示性能提升5.9-42.2%[16][17] - STOC硬件支持两级实现:STOC1(嵌入18位)和STOC3(指针扩展至128B叶节点)[18][19] 架构战略方向 - Xe3延续Xe2的能效提升路径,通过延迟容忍设计(如动态寄存器分配)提高核心利用率[21] - 公司持续优化计算架构,与Nvidia(Ampere至Blackwell SM架构稳定)形成差异化发展路径[22] - STOC等创新需开发者适配,但纯软件实现已能带来性能收益,可能推动硬件功能采用[19][22]