Groq LPU芯片 - 财报，业绩电话会，研报，新闻

Groq LPU芯片

搜索文档

东方证券· 2026-03-07 15:59

行业投资评级 - 电子行业评级为“看好”（维持） [5] 报告核心观点 - SRAM在AI推理中拓展应用，堆叠方案可助力容量扩充 [2][7][8] - 事件驱动：英伟达将于2026年3月16日举办GTC 2026大会，市场关注其有望结合Groq LPU芯片架构推出新的AI推理芯片方案，进而驱动SRAM拓展应用 [7] - SRAM可实现较高的访问速度，读写速度极快，访问时间仅约10纳秒甚至更低，远超DRAM [7] - SRAM架构在AI推理中拓展应用，头部厂商加速布局。SRAM容量较小但工作速度快，在AI推理过程中，对于小参数模型的模型权重、数据流架构中的中间结果和权重数据等部分容量要求小但访问速度要求高的数据，可作为HBM之外的重要存储层级补充 [7] - 产业进展：2025年12月英伟达斥资200亿美元获得Groq知识产权的非独家授权。Groq LPU采用容量达数百MB的片上SRAM存放模型权重，片上带宽高达80TB/s [7] - 产业进展：Cerebras推出的晶圆级引擎3（WSE-3）芯片拥有多达44GB的片上SRAM存储。2026年2月，OpenAI发布其首款搭载Cerebras Systems芯片的AI模型GPT-5.3-Codex-Spark，并有望在2026~2028年把750MW规模的Cerebras芯片集成到其AI推理计算资源库中 [7] - 3D堆叠方案助力SRAM实现容量扩充，AMD等头部厂商已有布局。该方案可通过垂直堆叠存储单元的方法来提升密度，规避传统SRAM容量受面积密度限制的问题 [7] - 产业进展：2021年AMD公布3D垂直缓存（3D V-Cache）技术，可将额外的7nm SRAM缓存垂直堆叠在Ryzen计算小芯片顶部 [7] - 产业进展：2024年7月，富士通介绍旗下MONAKA处理器采用3D SRAM技术，计划2027年出货。该处理器采用3D芯粒架构，所有末级缓存位于5nm SRAM芯片（底层芯片）中 [7][17] 投资建议与相关标的 - 投资建议：SRAM在AI推理中拓展应用，堆叠方案助力容量扩充 [3][8] - 相关标的覆盖多个产业链环节 [3][8]： - 布局定制化存储方案的国内头部存储芯片设计厂商：兆易创新、北京君正等 - 布局基于SRAM的数字存算一体方案：恒烁股份 - 布局先进封装：长电科技、通富微电等 - 布局混合键合设备：拓荆科技、华海清科、百傲化学、芯源微等 - 有望受益于英伟达新芯片方案的头部PCB厂商：深南电路、沪电股份、胜宏科技等 - PCB上游企业：生益科技、南亚新材、宏和科技、菲利华、中材科技等

广发证券：SRAM提升AI推理速度相关架构进入主流大厂视野

智通财经· 2026-02-27 15:35

SRAM在AI芯片架构中的核心优势 - SRAM作为集成在CPU/GPU计算核心附近的片上存储具备纳秒级访问时延与高度确定性的带宽特性但容量小且成本高 [1] - 在大模型应用中相比依赖外置HBM SRAM可显著降低权重与激活数据的访问延迟与抖动从而改善Time-to-First-Token与尾时延表现 [1][2] - Groq的LPU单芯片集成约230MB片上SRAM 存储带宽高达80TB/s 而GPU片外HBM的内存带宽约为8TB/s [2] - Cerebras的WSE-3芯片集成44GB SRAM 片上存储带宽达21PB/s [3] SRAM架构AI芯片的性能表现 - 以Llama 3 70B模型为例 Groq LPU芯片在不同上下文长度下均能维持稳定推理速度达275-276 token/s 显著优于其他推理平台 [2] - Cerebras WSE-3芯片在OpenAI GPT OSS 120B推理任务中实现超过3000 tokens/s的输出速度较主流GPU云推理快约15倍 [3] - OpenAI在Cerebras AI加速器上运行的GPT-5.3-Codex-Spark预览版支持超过1000 tokens/s的代码生成响应速度 [3] SRAM架构获得产业巨头认可并进入主流视野 - 2025年12月英伟达斥资200亿美元获得Groq知识产权的非独家授权包括其语言处理单元和配套软件库并引入Groq核心工程团队 [1][4] - 2026年2月 Cerebras完成10亿美元F轮融资估值达230亿美元 [4] - 2026年2月 OpenAI与Cerebras签署100亿美元合同部署多达750兆瓦的定制AI芯片 [1][4] 投资观点总结 - AI记忆持续扩展模型能力边界 AI Agent等应用加速落地 [5] - AI记忆相关上游基础设施的价值量与重要性将不断提升 [5]

Cerebras晶圆级引擎3（WSE - 3）芯片

Cerebras晶圆级引擎3（WSE - 3）芯片

AI的Memory时刻7：SRAM提升AI推理速度

广发证券· 2026-02-26 15:02

报告行业投资评级 - 报告未明确给出对“AI Memory”或半导体行业的整体投资评级，但重点覆盖的六家A股公司（澜起科技、兆易创新、中微公司、拓荆科技、北方华创、京仪装备）均被给予“买入”评级 [4] 报告的核心观点 - **核心观点**：AI 的 Memory 时刻，AI 记忆持续扩展模型能力边界，AI Agent 等应用加速落地，AI 记忆相关上游基础设施的价值量和重要性将不断提升 [3] - **技术路径**：SRAM（静态随机存取存储器）作为片上高带宽存储层，能够显著提升 AI 推理速度，其架构正进入主流视野 [3][7] - **产业动态**：行业巨头（如英伟达、OpenAI）通过巨额投资与合作（如授权、融资、采购合同）积极布局 SRAM 技术路径，标志着该技术获得重要产业认可 [3] 根据相关目录分别进行总结一、SRAM 是片上高带宽存储层 - **存储层级定位**：在存储分级（SRAM、HBM、DRAM、SSD）中，SRAM 是集成在 CPU、GPU 计算核心附近的片上存储 [3] - **性能特点**：具备纳秒级访问时延与高度确定性的带宽特性，带宽高但容量小、成本高 [3] 二、SRAM 可提升 AI 推理速度 - **性能优势**：相比依赖外置 HBM，SRAM 可显著降低大模型推理中权重与激活数据的访问延迟与抖动，从而改善首次令牌生成时间（Time-to-First-Token）与尾时延表现 [3] - **企业案例 - Groq**： - 其 LPU 单芯片内集成约 **230MB** 片上 SRAM，存储带宽高达 **80 TB/s**（对比 GPU 片外 HBM 内存带宽约为 **8 TB/s**）[3] - 在 Llama3.3 70B 模型测试中，Groq LPU 芯片在不同上下文长度下均能维持稳定推理速度，达 **275-276 token/s**，显著优于其他推理平台 [3] - **企业案例 - Cerebras**： - 其晶圆级引擎 3（WSE-3）芯片集成 **44GB SRAM**，片上存储带宽达 **21 PB/s**[3] - 在 OpenAI GPT OSS 120B 推理任务中实现 **>3000 tokens/s** 的输出速度，较主流 GPU 云推理快约 **15倍**[3] - 运行于其上的 GPT-5.3-Codex-Spark 预览版支持 **>1000 tokens/s** 的代码生成响应速度 [3] 三、SRAM 架构进入主流视野 - **英伟达与 Groq 合作**：2025年12月，英伟达斥资 **200亿美元** 获得 Groq 知识产权的非独家授权，包括其语言处理单元（LPU）和配套软件库，并引入 Groq 核心工程团队 [3] - **Cerebras 获资本与产业青睐**： - 2026年2月，Cerebras 宣布完成 **10亿美元** F 轮融资，估值达 **230亿美元**[3] - OpenAI 与 Cerebras 签署 **100亿美元** 合同，计划部署多达 **750兆瓦** 的定制 AI 芯片 [3] 四、投资建议 - **投资逻辑**：AI 记忆相关上游基础设施（如 SRAM 及相关产业链）的价值量和重要性将不断提升 [3][39] - **具体建议**：建议关注产业链核心受益标的 [3][39] - **重点覆盖公司**：报告列出了六家A股半导体公司并给予“买入”评级，包括澜起科技、兆易创新、中微公司、拓荆科技、北方华创、京仪装备 [4]

Cerebras晶圆级引擎3（WSE - 3）芯片

Cerebras晶圆级引擎3（WSE - 3）芯片

腾讯研究院AI速递 20251226

腾讯研究院· 2025-12-26 00:57

英伟达战略布局与生态整合 - 英伟达与AI芯片初创公司Groq达成非独占性推理技术授权协议，传闻交易金额高达200亿美元，Groq创始人兼谷歌TPU之父Jonathan Ross及其工程团队加入英伟达 [1] - Groq专注于推理阶段的LPU芯片，其单卡输出速度可达500 token/秒，据称比英伟达GPU快10倍，并采用时序指令集计算机架构以规避HBM短缺并降低成本 [1] - 此次交易属于“技术授权+人才收购”模式，Groq将保持独立运营继续其云业务，英伟达此举旨在补齐其在推理算力方面的短板，并直接挑战谷歌TPU市场 [1] AI模型与框架性能突破 - 清华TSAIL实验室与生数科技联合开源TurboDiffusion视频生成加速框架，在单张RTX 5090上，1.3B参数的480P模型生成时间从184秒降至1.9秒，实现了97倍的加速 [2] - 该框架整合了SageAttention2++量化、SLA稀疏线性注意力、rCM步数蒸馏和W8A8量化四项核心技术，将端到端延迟从900秒大幅缩短至8秒 [2] - SageAttention技术已成功集成至NVIDIA TensorRT，并部署于华为昇腾、摩尔线程等平台，同时已被腾讯混元、字节豆包、阿里Tora等头部企业应用 [2] 行业大模型应用落地 - 上海市规划资源局与商汤科技联合打造了全国规划资源领域首个6000亿参数的基础大模型“云宇星空”，具备问不倒、能调图、会统计、能识图、会报告五大能力 [3] - 该模型基于坤舆经略语料库训练，在政务内网专业版与核心业务系统打通，其专有名词准确率达到98%，人工问答点赞率为95% [3] - 模型采用“1+6”（基座+垂类）的模型体系和智能调度引擎，支持对二维、三维空间数据的自然语言调用，探索了数据产品化服务化的政务大模型新范式 [3] - 腾讯云与安徽驿路微行基于腾讯混元大模型，联合推出了ETC领域首款AI智能体“助手Agent”，自今年4月内测以来已服务超过100万用户 [4] - 该智能体融合多模态交互技术，支持文本和语音输入，问答准确率达95%，问题解决率达90%，可实现设备咨询、查询通行记录、开发票等复合需求 [4] - 系统部署了105种状态监测算法以实时采集设备运行数据，通过语音交互与关键状态播报实现“服务找人”，用户可直接通过语音控制设备 [4] 具身智能与三维感知技术进展 - Dexmal原力灵机提出GeoVLA框架，采用双流架构在保留视觉语言模型语义理解能力的同时，通过点云嵌入网络和空间感知动作专家赋予机器人三维几何感知能力 [6] - 在LIBERO-90长程多任务测试中，该框架达到97.7%的成功率，超越了OpenVLA-OFT；在ManiSkill2测试中平均成功率达77%，真机域内任务总体平均成功率为86.3% [6] - 在分布外场景鲁棒性测试中表现突出，例如当篮筐高度变化时能保持60%的成功率（对比CogACT仅20%），视角偏移45°时能保持70%的成功率，证明其学到了真正的3D空间结构 [6] - 英伟达具身智能负责人Jim Fan称特斯拉FSD v14是首个通过物理图灵测试的AI，该软件已在美国等7个国家推出 [9] - 特斯拉构建了14个技术壁垒，包括冻结传感器方案4-6年以实现数据积累、即时价值判断引擎智能过滤数据、以及Neural Codec处理Raw Bayer原始数据等 [9] - 系统采用端到端Transformer实现从光子输入到电机扭矩输出，在Cortex超算的车机芯片上进行硬件在环量化训练，77天内更新了12个版本，但仍存在车道切换和变道决策问题 [9] AI前沿研究与科学突破 - 上海交大TSAIL实验室、上海算法创新研究院、深势科技组成的SciMaster团队推出ML-Master 2.0，基于国产DeepSeek-V3.2-Speciale在MLE-bench取得56.44%的奖牌率并登顶榜单 [7] - 该系统针对真实机器学习工程设计，引入了层次化认知缓存机制，将上下文建模为经验、知识、智慧三层认知资产 [7] - 采用“生成-验证”协议实现超长程自主能力，已在理论计算物理、具身智能等领域落地应用，目前通过SciMaster平台开放Waiting List申请 [7] - 密歇根州立大学物理学家许道辉在GPT-5的建议下，采用Tomonaga-Schwinger量子场论框架，在《物理快报B》发表了关于非线性量子力学与相对论兼容性的论文 [8] - 论文推导出状态依赖哈密顿密度的可积性条件，证明非线性量子演化极易破坏相对论协变性或导致超光速通信，这可能是首篇由AI提供核心理论突破思路的理论物理论文 [8] - 研究采用了“生成-验证”协议，即一个模型实例生成推导，另一个独立实例检查自洽性，最后由人类审查，强调了多模型协作工作流是高水平研究的安全阀 [8]