大型语言模型 (LLM)
搜索文档
芯片巨头,角逐小市场
半导体行业观察· 2025-12-08 11:04
文章核心观点 - 虚拟/云无线接入网(RAN)及AI-RAN领域正面临芯片供应商过度集中的风险,从英特尔在CPU的垄断转向英伟达在GPU的垄断,行业寻求多元化但面临技术和生态挑战 [1][6] - 谷歌的TPU作为潜在的AI芯片替代方案,在成本和性能上展现出对英伟达GPU的竞争力,但其在电信RAN市场的应用前景有限,主要受市场规模、生态支持和公司战略优先级影响 [2][3][4] - 电信运营商和主流RAN设备商对AI-RAN的芯片路径持不同态度,部分认为GPU非必需,行业整体不愿过度依赖单一供应商,这构成了英伟达推广其AI-RAN方案的主要障碍 [5][6] 虚拟/云RAN与AI-RAN的芯片垄断困境 - 虚拟/云RAN长期面临英特尔作为通用CPU主要甚至唯一供应商的问题,这与开放式RAN倡导的供应商多元化理念相悖 [1] - AI-RAN概念由英伟达提出,旨在用其GPU取代传统RAN的定制芯片和虚拟RAN的CPU,以提升频谱效率 [1] - 英伟达在GPU领域的统治地位甚至超过了英特尔在CPU领域的统治地位,形成了新的垄断担忧 [1] - 行业(如运营商Orange)呼吁硬件软件“完全解耦”,但即使从英特尔x86架构转向竞争对手AMD也困难重重 [1] - 英伟达为拓展虚拟RAN选择、超越英特尔所做的努力,反映了业界不愿依赖单一供应商的普遍心态 [6] 谷歌TPU作为替代方案的潜力与局限 - 谷歌研发的张量处理单元(TPU)被视为英伟达GPU的低成本替代方案,伯恩斯坦估计其成本仅为同等算力英伟达GPU的二分之一到十分之一 [2] - 具体成本对比:英伟达最贵的GPU R200平均售价接近6万美元,而谷歌最贵的TPU v7售价远低于1.5万美元 [2] - 谷歌的大型语言模型Gemini 3完全在其TPU上训练完成,并在多项基准测试中表现优于竞争对手,证明了TPU处理尖端AI工作负载的能力 [2] - 谷歌已向其他公司出售TPU,例如Anthropic宣布将购买至多100万个TPU,交易“价值数百亿美元” [3] - 然而,TPU缺乏类似英伟达CUDA的开发者生态系统,且很难被销售用于部署在非谷歌云平台(GCP)的RAN站点或数据中心 [4][5] - 全球RAN产品市场规模相对较小,2023年销售额约为350亿美元,仅为谷歌母公司Alphabet同期销售额的十分之一,因此不太可能成为谷歌的优先事项 [3] 行业参与者的战略与挑战 - 大型RAN软件开发商(如爱立信、诺基亚、三星)面临芯片复杂性增加的挑战,将软件从英特尔移植到AMD已有困难,重新适配到TPU平台将更加困难 [4] - 这些开发商对英伟达的CUDA平台已有不同程度的了解,英伟达也推出了基于CUDA的RAN计算框架Aerial [4] - 谷歌在电信网络的焦点集中在5G核心网中易于在数据中心部署的部分,对云RAN兴趣寥寥 [4] - 谷歌的竞争对手AWS发布了一款基于Arm架构的全新Graviton CPU,旨在处理RAN工作负载 [5] - 诺基亚乐观认为,为英伟达CUDA平台和GPU编写的RAN软件未来或可无需重大改造即部署到其他GPU(如AMD)上,但AMD在RAN的努力目前主要聚焦于CPU替代 [5] - 部分电信运营商(如沃达丰、加拿大Telus)的技术专家并不认为GPU是AI-RAN的必要组成部分 [6] - 爱立信和三星并未改变其基于英特尔的虚拟RAN战略,但在近期更新中均强调了人工智能的重要性 [6] 英伟达在RAN市场推广的核心障碍 - 英伟达面临的首要挑战是如何说服电信运营商相信其GPU相比其他芯片平台具有更具性价比的优势 [6] - 行业对单一供应商的警惕性,使得英伟达的市场支配力本身可能成为其在RAN领域推广的最大弱点 [6]
AI芯片的双刃剑
半导体行业观察· 2025-02-28 11:08
软件编程与人工智能建模的范式转变 - 传统软件编程依赖明确的指令代码,适合确定性场景但缺乏动态适应能力[2] - AI软件建模通过数据训练学习模式,使用概率推理处理不确定性,模型复杂度体现在参数规模而非代码量[3] - 高级AI模型如LLM包含数千亿至数万亿参数,依赖多维矩阵数学运算,每个时钟周期并行处理所有参数[3] 处理硬件的影响 - CPU采用串行执行架构,多核多线程提升并行性但仍无法满足AI模型的并行需求[4] - 高端CPU计算能力达几GigaFLOPS,内存带宽峰值500GB/s,内存容量达TB级[5] - GPU提供PetaFLOPS级性能,比CPU高两个数量级,但运行GPT-4时效率可能降至理论峰值的5%[6] - GPU高功耗引发可持续性问题,专用AI加速器(如ASIC)在计算效率和能耗上更具优势[7] AI加速器的关键属性与挑战 - 关键指标包括批处理大小和token吞吐量,需平衡延迟与吞吐量需求[8] - 大批量提升吞吐量但增加内存带宽压力,实时应用(如自动驾驶)需批量大小为1以最小化延迟[12] - 连续批处理技术动态添加输入,减少延迟并提升整体效率[13] - Token吞吐量依赖计算效率和数据移动优化,需首次token输出时间最短[14][15] 内存与计算瓶颈 - 内存带宽是主要瓶颈,大批量导致缓存未命中及访问延迟增加[9][19] - 高带宽内存(HBM3)和智能片上缓存可缓解内存瓶颈[21] - LLM依赖并行矩阵运算和注意力机制,计算瓶颈需专用硬件(如矩阵乘法单元)和混合精度计算(FP8)解决[19][22] 优化方向 - 硬件创新包括类似寄存器的缓存结构、专用加速器设计及高效数据流架构[21][22] - 软件优化涵盖定制化内核、梯度检查点减少内存占用、管道并行提升吞吐量[23] - 混合精度计算在保持模型精度前提下降低内存带宽需求和计算开销[22] 行业技术趋势 - Transformer架构需每个token关注全部历史token,增量Transformer按序计算token提升流式推理效率但增加内存需求[16] - 不规则token模式和自回归模型依赖可能导致硬件管道停滞,需优化调度策略[17] - AI加速器仍处早期阶段,需结合内存架构创新与数据流优化以突破性能限制[18][20][24]