语言处理单元 (LPU)
搜索文档
一颗芯片的新战争
半导体行业观察· 2025-10-07 10:21
文章核心观点 - AI推理芯片市场竞争加剧,成为AI下半场商业化关键,市场规模预计2028年达1500亿美元,年复合增长率超40% [3] - 华为、英伟达、谷歌三大巨头及初创公司Groq相继发布推理芯片,竞争焦点从原始算力转向成本、能效、软件生态和应用场景的综合较量 [3][5][10][25][28] 华为Ascend 950PR - 华为宣布昇腾芯片规划,未来3年将推出950、960、970系列,目标算力一年一代翻倍 [3] - Ascend 950PR专攻推理Prefill阶段和推荐业务,采用自研低成本HBM(HiBL 1.0),预计2026年一季度面世 [3] - 芯片采用同一Die设计,低成本HBM策略可解决HBM供给紧缺并降低总成本(内存成本占推理支出40%以上) [3][4] - 互联带宽相比Ascend 910C提升2.5倍,达2TB/s,支持低精度数据格式如FP8,算力达1P和2P [6] 英伟达Rubin CPX - 英伟达推出专为大规模上下文设计的GPU Rubin CPX,预计2026年底上市,标志公司向推理市场延伸 [5][8] - 单机架算力达8 Exaflops,较GB300 NVL72提升7.5倍,配备100TB快速内存和1.7PB/s带宽 [5] - 芯片针对百万Token级上下文,峰值算力30 Petaflops,内存128GB GDDR7,系统专注力提升3倍 [8] - 支持NVFP4精度,集成视频编解码器,旨在解决AI Agent长上下文瓶颈(80%AI应用将涉及多模态长序列处理) [8][9] 谷歌Ironwood TPU - 谷歌推出第七代TPU推理芯片Ironwood,以应对内部推理请求量激增(2024年4月至2025年4月令牌使用量增长50倍) [10][13] - 提供256芯片和9,216芯片两种配置,后者总算力42.5 Exaflops,是El Capitan超算的24倍;单芯片峰值算力4.614 Exaflops [15] - 功率效率为Trillium的1.5倍,每瓦性能翻倍,较首代TPU提升30倍;单芯片内存带宽7.37 TB/s,容量192 GB,为Trillium的6倍 [17][20] - 通过光路交换机(OCS)互连集群,提供1.77 PB HBM内存容量,支持动态重构和故障修复,软件栈支持PyTorch和JAX [20][21] - 软硬件协同优化可帮助客户降低推理延迟高达96%,吞吐量提高40%,每个令牌成本降低多达30% [24] Groq推理芯片初创公司 - Groq在2025年9月融资7.5亿美元,估值从2021年10亿美元跃升至69亿美元,投资者包括Disruptive、三星、思科等 [25] - 公司计划到2025年第一季度部署超108,000个LPU(14纳米),已获沙特阿拉伯15亿美元订单和贝尔加拿大独家合作 [26] - LPU采用张量流架构,单大核心设计,延迟比GPU低10倍,内存带宽优势达10倍,适合实时AI推理 [27] 行业趋势与竞争格局 - AI推理市场增长速度快于训练市场(推理年复合增长率40% vs 训练20%),支撑智能推荐、内容生成等实时应用需求 [3] - 推理阶段是实现AI商业化的关键,芯片竞争围绕成本控制(如华为HBM策略)、能效提升(如谷歌TPU)和长上下文处理(如英伟达)展开 [3][4][8][17][28]
速递|英伟达AI 芯片挑战者Groq融资超预期,估值达69亿美元,融资总额已超 30 亿美元
Z Potentials· 2025-09-18 10:43
融资情况 - 公司完成7.5亿美元新一轮融资 投后估值达69亿美元[1] - 融资额和估值均超此前传闻 此前传闻为以近60亿美元估值筹集约6亿美元资金[1] - 本轮融资由Disruptive领投 黑石集团、Neuberger Berman、德国电信资本合伙公司等机构追加投资 三星、思科、D1和Altimeter等现有投资方参与[1] - 公司曾于2024年8月以28亿美元估值融资6.4亿美元 估值在约一年间增长超一倍[1] - 据PitchBook估算 公司迄今融资总额已超30亿美元[1] 业务与技术 - 除研发芯片外 公司还提供数据中心算力服务[1] - 与主流AI系统采用的图形处理器不同 公司将其芯片命名为语言处理单元 硬件称为"推理引擎"[1] - 产品面向开发者和企业 可作为云服务或本地硬件集群使用[2] - 本地硬件是配备集成硬件/软件节点堆栈的服务器机架[2] - 云端和本地硬件都运行Meta、DeepSeek、Qwen、Mistral、Google和OpenAI等热门模型的开源版本[2] - 产品在显著降低成本的同时保持甚至提升AI性能[3] 发展状况 - 公司致力于打破英伟达对AI芯片领域的垄断格局[1] - 目前为超过200万名开发者的AI应用提供支持 一年前这一数字仅为35.6万[3] - 创始人乔纳森·罗斯曾在谷歌开发专为机器学习任务设计的张量处理单元芯片[3] - TPU于2016年发布 至今仍为谷歌云的AI服务提供动力[3]
AI芯片黑马融资53亿,估值490亿
半导体行业观察· 2025-09-18 10:09
融资与估值 - Groq Inc 宣布完成7.5亿美元的新一轮融资,由Disruptive领投,思科、三星电子、德国电信资本合伙公司等多家机构参与 [3] - 公司当前估值为690万美元,相比去年的28亿美元估值有显著提升 [3] 核心技术:语言处理单元 - Groq推出的语言处理单元是一款专为AI推理设计的处理器,声称在运行某些推理工作负载时,能效比显卡高10倍 [3][8] - LPU通过降低处理器组件间的协调开销,为AI模型推理释放更多处理能力,能够运行包含1万亿个参数的模型 [3] - 芯片采用确定性架构,可以单个时钟周期的粒度预测计算操作时间,有助于实现性能优化 [4] 技术优势与设计原则 - LPU使用自定义编译器,在推理工作负载启动前预先计算任务分配,减少运行时计算开销 [4] - 编译器采用改进的RealScale量化技术,仅压缩神经网络中输出质量不会显著下降的部分,以减少内存占用 [4] - 设计原则包括软件优先、可编程装配线架构、确定性计算和网络、以及片上存储器 [8] - 软件优先原则使开发人员能最大化硬件利用率,LPU专为线性代数计算设计,简化了多芯片计算范式 [9][10] - 可编程装配线架构通过数据"传送带"在功能单元间传输指令和数据,由软件完全控制,无需硬件同步,消除了瓶颈 [11][12] - 确定性计算确保每个执行步骤完全可预测,通过消除数据带宽和计算资源的争用来实现高度确定性 [13] - 片上存储器采用SRAM,内存带宽高达80 TB/秒,相比GPU片外HBM的约8 TB/秒,速度提升10倍,并减少了数据检索的延迟和能耗 [14] 产品与市场应用 - 公司将芯片作为GroqRack设备的一部分出售,该系统包含九台服务器,每台配备多个LPU,所需外部网络硬件更少,降低了成本且易于数据中心安装 [4] - 通过云平台GroqCloud提供芯片访问,开发者可通过API将LPU驱动的AI模型集成到自身软件中;新融资将用于扩展支持该平台的数据中心网络 [5] - 有报道称竞争对手推理芯片供应商Rivos正寻求以20亿美元估值融资至多5亿美元,其产品为结合显卡与CPU核心的片上系统 [6]
AI芯片初创公司Groq,发展迅猛
半导体芯闻· 2025-07-11 18:29
公司动态 - Groq在欧洲建立首个数据中心,以应对全球对AI服务和产品日益增长的需求,并推动欧洲地区业务指数级增长[1] - 公司与Equinix合作在芬兰赫尔辛基建立数据中心,选择北欧因其凉爽气候和易获取的可再生能源[1] - Groq目前在美国、加拿大和沙特阿拉伯已拥有数据中心[2] - 公司估值达28亿美元,获得思科和三星等全球领先企业的投资支持[1][2] 技术产品 - Groq设计名为语言处理单元(LPU)的芯片,专注于AI推理而非模型训练[2] - LPU芯片工作原理是通过预先训练的AI模型实时解读数据并生成特定结果,类似聊天机器人应答模式[2] - Equinix计划在其数据中心平台安装Groq的LPU,使企业能利用其推理产品[2] 行业趋势 - 英伟达CEO近期访问欧洲探索业务扩张机会,签署多项协议并建立数据中心[1] - 除Groq外,SambaNova、Ampere、Cerebras等公司也在布局AI推理芯片市场[2] - 欧洲政治环境推动"主权AI"概念,要求数据中心靠近用户以提高服务速度[2] - 多家美国公司正在欧洲地区进行投资布局[1]
Groq在欧洲建立数据中心,挑战英伟达
半导体芯闻· 2025-07-07 17:49
公司动态 - Groq宣布与Equinix合作在芬兰赫尔辛基建立首个欧洲数据中心,加速国际扩张[1][2][3] - 该数据中心从决策到部署仅用4周时间,预计本周末可开始服务客户[5] - 公司目前在美国、加拿大和沙特阿拉伯已设有数据中心[6] 市场战略 - 公司瞄准欧洲对AI服务日益增长的需求,跟随其他美国企业加大对欧投资[1][3] - 北欧地区因可再生能源和凉爽气候成为数据中心建设优选地[3] - 通过与Equinix合作,企业可通过其平台访问Groq的AI推理功能[5] 技术优势 - 公司开发了专为AI推理设计的语言处理单元(LPU)芯片,估值达28亿美元[3] - LPU芯片采用不同于英伟达GPU的设计,不使用高带宽内存等昂贵组件[4] - 供应链集中在北美,供应受限程度较低,主打高产量低利润模式[4][5] 行业竞争 - 在英伟达主导的AI训练芯片市场外,Groq与SambaNova、Ampere、Cerebras等公司竞争AI推理领域[3] - 公司CEO表示将通过快速部署能力和差异化技术超越包括英伟达在内的竞争对手[3][5]