ROCCM

搜索文档
Advanced Micro Devices (AMD) Update / Briefing Transcript
2025-06-13 01:30
纪要涉及的行业或者公司 行业:人工智能、半导体、云计算、金融、医疗、媒体、制造等 公司:AMD、Microsoft、Facebook、Zoom、Netflix、Uber、Salesforce、SAP、three ten AI、OpenAI、Google、Meta、DeepSeek、xAI、Tesla、Coher、Luma、Essential、Oracle、Humane、Allianz、Nokia、Philips、Unilever、Aleph Alpha、Mistral、NxAI、Red Hat、Astera Labs、Marvell 纪要提到的核心观点和论据 行业趋势 - **AI 发展进入新阶段**:自 ChatGPT 推出后,AI 创新加速,2025 年推理需求显著增长,模型数量爆发,预计未来将有数十万甚至数百万个专用模型 [4][5] - **Agentic AI 带来新需求**:Agentic AI 活动增加,相当于为全球计算基础设施增加数十亿新虚拟用户,需要大量 GPU 和 CPU 协同工作 [7] - **数据中心 AI 加速器市场增长**:预计 2028 年数据中心 AI 加速器 TAM 将超过 5000 亿美元,推理将成为 AI 计算的最大驱动力,预计未来几年推理年增长率超 80% [8][9][10] - **AI 应用场景拓展**:AI 从数据中心扩展到边缘智能系统和 PC 体验,预计将部署在每个设备中 [10] AMD 战略 - **提供广泛计算引擎组合**:提供包括 CPU、GPU、DPU、NIC、FPGA 和自适应 SoC 在内的完整计算元素套件,满足不同 AI 应用场景的计算需求 [12][13] - **投资开放开发者生态系统**:AMD 是唯一致力于硬件、软件和解决方案开放的公司,支持所有主要框架、库和模型,推动行业采用开放标准 [14][15] - **交付全栈解决方案**:通过建立合作伙伴关系,将各种元素整合在一起,提供全栈 AI 解决方案 [12] 产品与技术 - **MI 300 系列**:不到两年推出 MI 300,每年推出新的 Instinct 加速器,MI 350 系列实现了 Instinct 历史上最大的代际性能飞跃,在最苛刻的模型上表现出色 [42] - **MI 350 性能优势**:MI 355 采用最新 Instinct 架构,支持新数据格式,使用 HBM3E 内存,拥有 1850 亿个晶体管,在 AI 计算上实现 4 倍代际性能提升,可运行高达 520 亿参数的模型 [44][45][46] - **MI 350 与竞品对比**:在 DeepSeek r1 或 Lama 3.1 上,MI 355 使用开源框架的吞吐量比 B200 高 30%,与更昂贵复杂的 GB200 性能相当,每美元可生成的令牌数比竞品多 40% [49][50] - **ROCCM 软件栈**:ROCCM 软件栈不断进步,ROCCM 7 带来新功能,支持 MI 350 系列 GPU,在推理性能上比 ROCCM 6 提高 3.5 倍以上 [132][137][139] - **分布式推理**:通过将预填充和解码阶段分离到专门的 GPU 池,可以显著提高吞吐量、降低成本并增强响应能力,AMD 正在开发基于开放方法的分布式推理解决方案 [172][173][174] - **Rockham Enterprise AI**:为企业提供易于部署的 AI 解决方案,包括新的集群管理软件和 MLOps 平台,支持企业数据集成和工作流优化 [175] - **AMD Developer Cloud**:提供即时访问 AMD GPU 的云服务,无需设置,包含丰富的框架和 Jupyter 笔记本,为开发者提供良好的开发体验 [192][198][199] - **Helios AI Rack**:2026 年推出的 Helios AI Rack 是一个完全集成的 AI 机架平台,专为大规模训练和分布式推理而设计,具有领先的内存容量、带宽和互连速度 [250][251][252] 合作伙伴与客户 - **xAI**:xAI 使用 AMD GPU 开发 Grok 系列模型,认为使用 AMD GPU 轻松高效,双方紧密合作,快速将产品推向市场 [26][29][30] - **Meta**:Meta 是 AMD 的早期合作伙伴,广泛部署 MI 300x 用于 LAMA 3 和 LAMA 4 推理,对 MI 350x 的性能和功能表示期待,双方在软件和硬件方面进行了多年合作 [56][57][62] - **Oracle**:Oracle 与 AMD 合作多年,使用 AMD EPYC 用于数据库,在交易吞吐量和分析查询方面取得显著性能提升,计划在 OCI 上大规模部署 AMD Instinct 平台,预计未来一年增长 10 倍 [91][92][93] - **Microsoft**:Microsoft 是 AMD 的长期合作伙伴,将 Instinct 集成到推理平台,使用 Instinct 芯片在多种模型上实现高性能,与 AMD 在开放模型和训练方面的合作不断拓展 [143][145][153] - **Cohere**:Cohere 专注于为企业构建安全和私密的 AI,将最新模型 Command a 移植到 AMD 平台,计划在 AMD GPU 上进行大规模训练,认为 AMD 的内存系统有助于降低成本 [161][165][166] - **Red Hat**:Red Hat 与 AMD 在多个领域合作,包括虚拟化、AI 推理和分布式推理,共同推动 VLLM、LLMD 等开放框架的发展,通过 OpenShift AI 简化企业 AI 部署 [178][180][185] 其他重要但是可能被忽略的内容 - **主权计算**:AMD 在全球与各国政府和研究机构合作,帮助构建高性能计算和 AI 基础设施,推动主权 AI 发展,目前有超过 40 个活跃项目 [106][107] - **Ultra Accelerator Link Consortium**:AMD 捐赠 Infinity Fabric 关键 IP 给 UALink 联盟,该协议可扩展到 1000 个连贯 GPU 节点,支持 AI 系统的训练和分布式推理,Astera Labs 和 Marvell 等公司参与其中 [223][224][233] - **Ultra Ethernet Consortium**:AMD 是 UEC 的创始成员,UEC 标准可实现共享内存架构扩展到超过 100 万个 GPU,AMD 的 Pensando Polara AI NIC 支持 UEC 标准,可降低网络成本并提高系统可靠性 [243][244][245]