AI 100加速器
搜索文档
高通AI芯片,大猜想
半导体行业观察· 2025-10-30 09:07
高通与Humain AI的战略合作 - 高通与沙特阿拉伯的Humain AI初创公司签署正式协议,合作开发边缘和数据中心的AI技术,Humain成为高通未来AI加速器的首个客户[2][3][5] - 合作范围包括开发推理AI芯片、搭载骁龙和Dragonwing系统级芯片的边缘设备,以及针对这些SoC调整Humain的阿拉伯语大型语言模型[3] - 谅解备忘录要求高通开发并提供最先进的数据中心CPU和AI解决方案,这意味着高通将重返服务器CPU业务[3] 高通AI加速器产品线与技术演进 - 高通AI 100 XPU于2019年发布,2021年上半年发货,2023年11月推出AI 100 Ultra版本,将四块AI 100芯片互连在一个封装中[5][7] - 2024年10月高通开始发售AI 100的低配版AI 80,并推出PCIe卡形式的AI 100 Ultra,其SRAM容量从每芯片126 MB提升至144 MB[7] - 未来路线图包括2026年推出的AI 200 Ultra(采用3纳米工艺,128个AI核心,1,024 MB片上SRAM)和2027年初的AI 250 Ultra(采用2纳米工艺,192个AI核心,1,536 MB片上SRAM)[11][12] - AI 200 Ultra将配备768 GB的LPDDR5主内存,使用PCIe 5.0 x16实现机架内扩展,以太网实现跨机架扩展,功耗为250瓦[11][12] - AI加速器架构基于智能手机CPU中的Hexagon神经网络处理器,在同一核心上集成标量、矢量和张量单元,张量单元拥有8,192个INT8乘法累加器阵列和4,096个FP16乘法累加器阵列[14][15] 性能基准与能效对比 - 加州大学圣地亚哥分校基准测试显示,在GPT-2和Granite 3.2测试中,单个AI 100 Ultra(4个高通芯片)比4个Nvidia A100 GPU的单位功耗少60%[8] - 在部分模型上,相同数量的高通显卡比相同数量的英伟达显卡单位功耗表现更佳,例如在GPT-2模型上,高通AI 100 Ultra的每瓦令牌数为5.7368,而Nvidia A100为2.1685[9] - 计算密度方面,需要1到4个高通加速器机架(假设每5U服务器放16张卡)才能匹配4个或8个Nvidia A100 GPU的性能[10] 市场机遇与财务影响 - 高通已赢得200兆瓦的部署,假设每张AI 200 Ultra卡功耗250瓦,需要80万张卡,总计1,250个机架(每机架512台设备)[19] - 以每张卡4,000美元计算,AI加速器部分价值32亿美元,加上机架等基础设施总价值可能达52亿美元[19] - 在FP4精度下,高通AI 200 Ultra机架计算能力达983 petaflops,每petaflops成本2,604美元,每千瓦每petaflops为16.30美元,相比Nvidia B300 NVL72方案有约35%的每瓦功耗优势[19][20] 高通重返服务器CPU业务 - 高通曾于2017年推出48核Arm服务器CPU"Amberwing" Centriq 2400,但项目于2018年搁置,2021年收购Nuvia获得其"Phoenix"(现Oryon)内核[17] - 与Humain的合作明确高通将再次开发数据中心服务器CPU,未来AI 200和AI 250设备可能在封装中集成服务器级Oryon Arm内核[18] - AI 250将采用近内存计算创新内存架构,提供超过10倍的有效内存带宽和更低功耗[18]