大型语言模型 (LLM) - 财报，业绩电话会，研报，新闻

大型语言模型 (LLM)

搜索文档

半导体行业观察· 2025-12-08 11:04

文章核心观点 - 虚拟/云无线接入网（RAN）及AI-RAN领域正面临芯片供应商过度集中的风险，从英特尔在CPU的垄断转向英伟达在GPU的垄断，行业寻求多元化但面临技术和生态挑战 [1][6] - 谷歌的TPU作为潜在的AI芯片替代方案，在成本和性能上展现出对英伟达GPU的竞争力，但其在电信RAN市场的应用前景有限，主要受市场规模、生态支持和公司战略优先级影响 [2][3][4] - 电信运营商和主流RAN设备商对AI-RAN的芯片路径持不同态度，部分认为GPU非必需，行业整体不愿过度依赖单一供应商，这构成了英伟达推广其AI-RAN方案的主要障碍 [5][6] 虚拟/云RAN与AI-RAN的芯片垄断困境 - 虚拟/云RAN长期面临英特尔作为通用CPU主要甚至唯一供应商的问题，这与开放式RAN倡导的供应商多元化理念相悖 [1] - AI-RAN概念由英伟达提出，旨在用其GPU取代传统RAN的定制芯片和虚拟RAN的CPU，以提升频谱效率 [1] - 英伟达在GPU领域的统治地位甚至超过了英特尔在CPU领域的统治地位，形成了新的垄断担忧 [1] - 行业（如运营商Orange）呼吁硬件软件“完全解耦”，但即使从英特尔x86架构转向竞争对手AMD也困难重重 [1] - 英伟达为拓展虚拟RAN选择、超越英特尔所做的努力，反映了业界不愿依赖单一供应商的普遍心态 [6] 谷歌TPU作为替代方案的潜力与局限 - 谷歌研发的张量处理单元（TPU）被视为英伟达GPU的低成本替代方案，伯恩斯坦估计其成本仅为同等算力英伟达GPU的二分之一到十分之一 [2] - 具体成本对比：英伟达最贵的GPU R200平均售价接近6万美元，而谷歌最贵的TPU v7售价远低于1.5万美元 [2] - 谷歌的大型语言模型Gemini 3完全在其TPU上训练完成，并在多项基准测试中表现优于竞争对手，证明了TPU处理尖端AI工作负载的能力 [2] - 谷歌已向其他公司出售TPU，例如Anthropic宣布将购买至多100万个TPU，交易“价值数百亿美元” [3] - 然而，TPU缺乏类似英伟达CUDA的开发者生态系统，且很难被销售用于部署在非谷歌云平台（GCP）的RAN站点或数据中心 [4][5] - 全球RAN产品市场规模相对较小，2023年销售额约为350亿美元，仅为谷歌母公司Alphabet同期销售额的十分之一，因此不太可能成为谷歌的优先事项 [3] 行业参与者的战略与挑战 - 大型RAN软件开发商（如爱立信、诺基亚、三星）面临芯片复杂性增加的挑战，将软件从英特尔移植到AMD已有困难，重新适配到TPU平台将更加困难 [4] - 这些开发商对英伟达的CUDA平台已有不同程度的了解，英伟达也推出了基于CUDA的RAN计算框架Aerial [4] - 谷歌在电信网络的焦点集中在5G核心网中易于在数据中心部署的部分，对云RAN兴趣寥寥 [4] - 谷歌的竞争对手AWS发布了一款基于Arm架构的全新Graviton CPU，旨在处理RAN工作负载 [5] - 诺基亚乐观认为，为英伟达CUDA平台和GPU编写的RAN软件未来或可无需重大改造即部署到其他GPU（如AMD）上，但AMD在RAN的努力目前主要聚焦于CPU替代 [5] - 部分电信运营商（如沃达丰、加拿大Telus）的技术专家并不认为GPU是AI-RAN的必要组成部分 [6] - 爱立信和三星并未改变其基于英特尔的虚拟RAN战略，但在近期更新中均强调了人工智能的重要性 [6] 英伟达在RAN市场推广的核心障碍 - 英伟达面临的首要挑战是如何说服电信运营商相信其GPU相比其他芯片平台具有更具性价比的优势 [6] - 行业对单一供应商的警惕性，使得英伟达的市场支配力本身可能成为其在RAN领域推广的最大弱点 [6]

半导体行业观察· 2025-02-28 11:08

软件编程与人工智能建模的范式转变 - 传统软件编程依赖明确的指令代码，适合确定性场景但缺乏动态适应能力[2] - AI软件建模通过数据训练学习模式，使用概率推理处理不确定性，模型复杂度体现在参数规模而非代码量[3] - 高级AI模型如LLM包含数千亿至数万亿参数，依赖多维矩阵数学运算，每个时钟周期并行处理所有参数[3] 处理硬件的影响 - CPU采用串行执行架构，多核多线程提升并行性但仍无法满足AI模型的并行需求[4] - 高端CPU计算能力达几GigaFLOPS，内存带宽峰值500GB/s，内存容量达TB级[5] - GPU提供PetaFLOPS级性能，比CPU高两个数量级，但运行GPT-4时效率可能降至理论峰值的5%[6] - GPU高功耗引发可持续性问题，专用AI加速器（如ASIC）在计算效率和能耗上更具优势[7] AI加速器的关键属性与挑战 - 关键指标包括批处理大小和token吞吐量，需平衡延迟与吞吐量需求[8] - 大批量提升吞吐量但增加内存带宽压力，实时应用（如自动驾驶）需批量大小为1以最小化延迟[12] - 连续批处理技术动态添加输入，减少延迟并提升整体效率[13] - Token吞吐量依赖计算效率和数据移动优化，需首次token输出时间最短[14][15] 内存与计算瓶颈 - 内存带宽是主要瓶颈，大批量导致缓存未命中及访问延迟增加[9][19] - 高带宽内存（HBM3）和智能片上缓存可缓解内存瓶颈[21] - LLM依赖并行矩阵运算和注意力机制，计算瓶颈需专用硬件（如矩阵乘法单元）和混合精度计算（FP8）解决[19][22] 优化方向 - 硬件创新包括类似寄存器的缓存结构、专用加速器设计及高效数据流架构[21][22] - 软件优化涵盖定制化内核、梯度检查点减少内存占用、管道并行提升吞吐量[23] - 混合精度计算在保持模型精度前提下降低内存带宽需求和计算开销[22] 行业技术趋势 - Transformer架构需每个token关注全部历史token，增量Transformer按序计算token提升流式推理效率但增加内存需求[16] - 不规则token模式和自回归模型依赖可能导致硬件管道停滞，需优化调度策略[17] - AI加速器仍处早期阶段，需结合内存架构创新与数据流优化以突破性能限制[18][20][24]