Workflow
Groq LPU芯片
icon
搜索文档
广发证券:SRAM提升AI推理速度 相关架构进入主流大厂视野
智通财经· 2026-02-27 15:35
SRAM在AI芯片架构中的核心优势 - SRAM作为集成在CPU/GPU计算核心附近的片上存储 具备纳秒级访问时延与高度确定性的带宽特性 但容量小且成本高 [1] - 在大模型应用中 相比依赖外置HBM SRAM可显著降低权重与激活数据的访问延迟与抖动 从而改善Time-to-First-Token与尾时延表现 [1][2] - Groq的LPU单芯片集成约230MB片上SRAM 存储带宽高达80TB/s 而GPU片外HBM的内存带宽约为8TB/s [2] - Cerebras的WSE-3芯片集成44GB SRAM 片上存储带宽达21PB/s [3] SRAM架构AI芯片的性能表现 - 以Llama 3 70B模型为例 Groq LPU芯片在不同上下文长度下均能维持稳定推理速度 达275-276 token/s 显著优于其他推理平台 [2] - Cerebras WSE-3芯片在OpenAI GPT OSS 120B推理任务中实现超过3000 tokens/s的输出速度 较主流GPU云推理快约15倍 [3] - OpenAI在Cerebras AI加速器上运行的GPT-5.3-Codex-Spark预览版 支持超过1000 tokens/s的代码生成响应速度 [3] SRAM架构获得产业巨头认可并进入主流视野 - 2025年12月 英伟达斥资200亿美元获得Groq知识产权的非独家授权 包括其语言处理单元和配套软件库 并引入Groq核心工程团队 [1][4] - 2026年2月 Cerebras完成10亿美元F轮融资 估值达230亿美元 [4] - 2026年2月 OpenAI与Cerebras签署100亿美元合同 部署多达750兆瓦的定制AI芯片 [1][4] 投资观点总结 - AI记忆持续扩展模型能力边界 AI Agent等应用加速落地 [5] - AI记忆相关上游基础设施的价值量与重要性将不断提升 [5]
AI的Memory时刻7:SRAM提升AI推理速度
广发证券· 2026-02-26 15:02
报告行业投资评级 - 报告未明确给出对“AI Memory”或半导体行业的整体投资评级,但重点覆盖的六家A股公司(澜起科技、兆易创新、中微公司、拓荆科技、北方华创、京仪装备)均被给予“买入”评级 [4] 报告的核心观点 - **核心观点**:AI 的 Memory 时刻,AI 记忆持续扩展模型能力边界,AI Agent 等应用加速落地,AI 记忆相关上游基础设施的价值量和重要性将不断提升 [3] - **技术路径**:SRAM(静态随机存取存储器)作为片上高带宽存储层,能够显著提升 AI 推理速度,其架构正进入主流视野 [3][7] - **产业动态**:行业巨头(如英伟达、OpenAI)通过巨额投资与合作(如授权、融资、采购合同)积极布局 SRAM 技术路径,标志着该技术获得重要产业认可 [3] 根据相关目录分别进行总结 一、SRAM 是片上高带宽存储层 - **存储层级定位**:在存储分级(SRAM、HBM、DRAM、SSD)中,SRAM 是集成在 CPU、GPU 计算核心附近的片上存储 [3] - **性能特点**:具备纳秒级访问时延与高度确定性的带宽特性,带宽高但容量小、成本高 [3] 二、SRAM 可提升 AI 推理速度 - **性能优势**:相比依赖外置 HBM,SRAM 可显著降低大模型推理中权重与激活数据的访问延迟与抖动,从而改善首次令牌生成时间(Time-to-First-Token)与尾时延表现 [3] - **企业案例 - Groq**: - 其 LPU 单芯片内集成约 **230MB** 片上 SRAM,存储带宽高达 **80 TB/s**(对比 GPU 片外 HBM 内存带宽约为 **8 TB/s**)[3] - 在 Llama3.3 70B 模型测试中,Groq LPU 芯片在不同上下文长度下均能维持稳定推理速度,达 **275-276 token/s**,显著优于其他推理平台 [3] - **企业案例 - Cerebras**: - 其晶圆级引擎 3(WSE-3)芯片集成 **44GB SRAM**,片上存储带宽达 **21 PB/s**[3] - 在 OpenAI GPT OSS 120B 推理任务中实现 **>3000 tokens/s** 的输出速度,较主流 GPU 云推理快约 **15倍**[3] - 运行于其上的 GPT-5.3-Codex-Spark 预览版支持 **>1000 tokens/s** 的代码生成响应速度 [3] 三、SRAM 架构进入主流视野 - **英伟达与 Groq 合作**:2025年12月,英伟达斥资 **200亿美元** 获得 Groq 知识产权的非独家授权,包括其语言处理单元(LPU)和配套软件库,并引入 Groq 核心工程团队 [3] - **Cerebras 获资本与产业青睐**: - 2026年2月,Cerebras 宣布完成 **10亿美元** F 轮融资,估值达 **230亿美元**[3] - OpenAI 与 Cerebras 签署 **100亿美元** 合同,计划部署多达 **750兆瓦** 的定制 AI 芯片 [3] 四、投资建议 - **投资逻辑**:AI 记忆相关上游基础设施(如 SRAM 及相关产业链)的价值量和重要性将不断提升 [3][39] - **具体建议**:建议关注产业链核心受益标的 [3][39] - **重点覆盖公司**:报告列出了六家A股半导体公司并给予“买入”评级,包括澜起科技、兆易创新、中微公司、拓荆科技、北方华创、京仪装备 [4]
腾讯研究院AI速递 20251226
腾讯研究院· 2025-12-26 00:57
英伟达战略布局与生态整合 - 英伟达与AI芯片初创公司Groq达成非独占性推理技术授权协议,传闻交易金额高达200亿美元,Groq创始人兼谷歌TPU之父Jonathan Ross及其工程团队加入英伟达 [1] - Groq专注于推理阶段的LPU芯片,其单卡输出速度可达500 token/秒,据称比英伟达GPU快10倍,并采用时序指令集计算机架构以规避HBM短缺并降低成本 [1] - 此次交易属于“技术授权+人才收购”模式,Groq将保持独立运营继续其云业务,英伟达此举旨在补齐其在推理算力方面的短板,并直接挑战谷歌TPU市场 [1] AI模型与框架性能突破 - 清华TSAIL实验室与生数科技联合开源TurboDiffusion视频生成加速框架,在单张RTX 5090上,1.3B参数的480P模型生成时间从184秒降至1.9秒,实现了97倍的加速 [2] - 该框架整合了SageAttention2++量化、SLA稀疏线性注意力、rCM步数蒸馏和W8A8量化四项核心技术,将端到端延迟从900秒大幅缩短至8秒 [2] - SageAttention技术已成功集成至NVIDIA TensorRT,并部署于华为昇腾、摩尔线程等平台,同时已被腾讯混元、字节豆包、阿里Tora等头部企业应用 [2] 行业大模型应用落地 - 上海市规划资源局与商汤科技联合打造了全国规划资源领域首个6000亿参数的基础大模型“云宇星空”,具备问不倒、能调图、会统计、能识图、会报告五大能力 [3] - 该模型基于坤舆经略语料库训练,在政务内网专业版与核心业务系统打通,其专有名词准确率达到98%,人工问答点赞率为95% [3] - 模型采用“1+6”(基座+垂类)的模型体系和智能调度引擎,支持对二维、三维空间数据的自然语言调用,探索了数据产品化服务化的政务大模型新范式 [3] - 腾讯云与安徽驿路微行基于腾讯混元大模型,联合推出了ETC领域首款AI智能体“助手Agent”,自今年4月内测以来已服务超过100万用户 [4] - 该智能体融合多模态交互技术,支持文本和语音输入,问答准确率达95%,问题解决率达90%,可实现设备咨询、查询通行记录、开发票等复合需求 [4] - 系统部署了105种状态监测算法以实时采集设备运行数据,通过语音交互与关键状态播报实现“服务找人”,用户可直接通过语音控制设备 [4] 具身智能与三维感知技术进展 - Dexmal原力灵机提出GeoVLA框架,采用双流架构在保留视觉语言模型语义理解能力的同时,通过点云嵌入网络和空间感知动作专家赋予机器人三维几何感知能力 [6] - 在LIBERO-90长程多任务测试中,该框架达到97.7%的成功率,超越了OpenVLA-OFT;在ManiSkill2测试中平均成功率达77%,真机域内任务总体平均成功率为86.3% [6] - 在分布外场景鲁棒性测试中表现突出,例如当篮筐高度变化时能保持60%的成功率(对比CogACT仅20%),视角偏移45°时能保持70%的成功率,证明其学到了真正的3D空间结构 [6] - 英伟达具身智能负责人Jim Fan称特斯拉FSD v14是首个通过物理图灵测试的AI,该软件已在美国等7个国家推出 [9] - 特斯拉构建了14个技术壁垒,包括冻结传感器方案4-6年以实现数据积累、即时价值判断引擎智能过滤数据、以及Neural Codec处理Raw Bayer原始数据等 [9] - 系统采用端到端Transformer实现从光子输入到电机扭矩输出,在Cortex超算的车机芯片上进行硬件在环量化训练,77天内更新了12个版本,但仍存在车道切换和变道决策问题 [9] AI前沿研究与科学突破 - 上海交大TSAIL实验室、上海算法创新研究院、深势科技组成的SciMaster团队推出ML-Master 2.0,基于国产DeepSeek-V3.2-Speciale在MLE-bench取得56.44%的奖牌率并登顶榜单 [7] - 该系统针对真实机器学习工程设计,引入了层次化认知缓存机制,将上下文建模为经验、知识、智慧三层认知资产 [7] - 采用“生成-验证”协议实现超长程自主能力,已在理论计算物理、具身智能等领域落地应用,目前通过SciMaster平台开放Waiting List申请 [7] - 密歇根州立大学物理学家许道辉在GPT-5的建议下,采用Tomonaga-Schwinger量子场论框架,在《物理快报B》发表了关于非线性量子力学与相对论兼容性的论文 [8] - 论文推导出状态依赖哈密顿密度的可积性条件,证明非线性量子演化极易破坏相对论协变性或导致超光速通信,这可能是首篇由AI提供核心理论突破思路的理论物理论文 [8] - 研究采用了“生成-验证”协议,即一个模型实例生成推导,另一个独立实例检查自洽性,最后由人类审查,强调了多模型协作工作流是高水平研究的安全阀 [8]