AMD Instinct MI350系列GPU

搜索文档
通信行业周报2025年第32周:GPT5推理成本下降,卫星互联网组网进程提速-20250809
国信证券· 2025-08-09 22:25
行业投资评级 - 通信行业评级为"优于大市" [5] 核心观点 - GPT5推理成本显著下降,卫星互联网组网进程加速 [1] - AI算力产业链景气度在AI推理推动下有望延续 [1] - 卫星互联网行业景气度出现显著变化 [4] 行业要闻追踪 北美科技公司业绩 - Arista 2025Q2营收22.05亿美元,环比+10.0%,同比+30.4%,净利润8.89亿美元,同比+33.57% [12] - AMD 2025Q2营收76.85亿美元,同比+32%,数据中心业务营收32.4亿美元,同比+14% [17] - AMD预计2025Q3营收87亿美元,同比+28%,主要受益于MI350系列GPU量产推进 [19] OpenAI新产品发布 - GPT-5系列产品上下文窗口提升至400K,token价格优势显著 [22] - GPT-5在HealthBench Hard测试中获得46.2%分数,编程测试SWE-bench Verified得分74.9% [29] - 开源两款模型GPT-OSS 20B和120B,适合本地化、低延迟应用场景 [2] 台湾厂商表现 - 7家台湾服务器ODM厂商7月总营收12385.77亿新台币,同比+18.82% [38] - 鸿海7月营收6138.65亿新台币,同比+13.63%;广达同比+27.43%;纬创同比+122.44% [43] - 台积电7月营收3231.66亿新台币,同比+25.77%,1-7月累计营收同比+37.6% [53] 商业航天发展 - 我国成功发射卫星互联网低轨07组卫星和吉利星座04组卫星 [3] - 过去一个月GW星座已完成三组卫星发射 [3] 板块行情回顾 - 本周通信(申万)指数上涨1.30%,跑赢沪深300指数0.06个百分点 [63] - 细分领域中5G(+11.95%)、卫星互联网(+7.16%)和物联网控制器(+5.57%)表现靠前 [65] 投资建议 - 关注AI算力基础设施各环节及卫星互联网行业发展 [68] - 重点推荐组合:中国移动、中兴通讯、华工科技、广和通 [4] - 中长期建议配置分红比例持续提升的三大运营商 [4]
万字解读AMD的CDNA 4 架构
半导体行业观察· 2025-06-18 09:26
AMD CDNA 4架构核心升级 - CDNA 4是AMD最新面向计算的GPU架构,专注于提升低精度数据类型下的矩阵乘法性能,这对机器学习工作负载至关重要[2] - 架构采用与CDNA 3相同的大规模芯片组设计,包含8个加速器计算芯片(XCD)和4个基础芯片,通过Infinity Fabric技术实现一致内存访问[4] - 相比CDNA 3的MI300X,CDNA 4的MI355X减少了每个XCD的CU数量但提高了时钟速度,整体性能差距不大[5] 性能参数对比 - MI355X采用TSMC N3P工艺(计算芯片)和6nm工艺(基础芯片),时钟速度2.4GHz,比MI300X的2.1GHz和Nvidia B200的1.965GHz更高[5] - MI355X配备8个HBM3E堆栈,提供288GB内存和8TB/s带宽,优于MI300X的192GB/5.3TB/s和B200的180GB/7.7TB/s[5] - 在FP6精度下,CDNA 4的每CU矩阵吞吐量与B200 SM相当,但在16位和8位数据类型上B200仍保持优势[6] 计算单元改进 - CDNA 4重新平衡执行单元,专注于低精度矩阵乘法,许多情况下每CU矩阵吞吐量翻倍[6] - 矢量运算方面,CDNA 4保持MI300X的优势,每个CU有128条FP32通道,每周期提供256 FLOPS[8] - LDS(本地数据共享)容量从CDNA 3的64KB提升至160KB,读取带宽翻倍至每时钟256字节[14][15] 系统架构优化 - MI355X升级使用HBM3E内存,计算带宽比提升至每FP32 FLOP 0.05字节,优于MI300X的0.03字节[25] - 二级缓存新增"回写脏数据并保留行副本"功能,优化内存子系统带宽使用[20] - 架构采用两个IOD(输入输出芯片)而非上代的四个,简化了Infinity Fabric网络,延迟降低14%[52] 产品规格与性能 - MI355X GPU提供1400W直接液冷版本,FP8稀疏计算峰值达10PFLOPS,FP6/FP4达20PFLOPS[74] - 相比MI300X,MI355X在FP16/BF16矩阵运算性能提升1.9倍,FP8/INT8提升1.9倍,并新增FP6/FP4支持[47] - 内存分区支持NPS1(全内存交错)和NPS2(144GB分池)两种模式,后者可减少跨IOD通信开销[60][61] 软件生态系统 - ROCm软件堆栈支持Kubernetes编排,提供PyTorch和JAX等框架优化[70] - 针对生成式AI优化了vLLM和SGLang等推理框架,提供Llama系列等流行模型的Day 0支持[72] - 包含分布式训练框架如Maxtext(JAX)和Megatron LM(PyTorch),支持Flash Attention v3等关键技术[71]