Workflow
Rubin架构GPU
icon
搜索文档
带宽战争前夜,“中国版Groq”浮出水面
半导体行业观察· 2026-01-15 09:38
AI推理芯片行业趋势:从算力竞赛转向带宽战争 - AI行业竞争焦点正从单纯算力比拼转向对单位面积带宽的极致追求[4] - 大模型推理中90%的延迟源于数据搬运,导致算力利用率常低于30%[4] - 行业共识是通过存储靠近计算、流式执行与片上带宽构建来提升推理效率,AMD、d-Matrix、SambaNova等公司均印证此方向[4] 英伟达的战略布局:收购与架构革新 - 英伟达斥资200亿美元收购Groq核心技术,创公司历史最大交易,旨在抢占AI推理市场[2] - 计划于2028年推出新一代Feynman架构GPU,采用台积电A16制程与SoIC 3D堆叠技术,核心目的是在GPU内部深度集成Groq的LPU(语言处理单元)[2] - 此举旨在解决AI推理中长期存在的“带宽墙”与“延迟瓶颈”,推动公司从“算力霸主”向“推理之王”转型[2] 传统GPU在推理任务中的瓶颈 - 英伟达GPU架构最初为大规模训练与图形渲染设计,强调峰值算力与吞吐能力[14] - 在大模型推理的Decode阶段,GPU性能瓶颈主要来自对外部存储(HBM)和复杂内存层级的高度依赖[14] - 该过程呈现强序列性、小批量和带宽主导特征,与GPU设计初衷错配,导致访存延迟波动、算力难以稳定发挥[14] 寒序科技:中国MRAM推理芯片的开拓者 - 公司源于北京大学物理学院,以“超高带宽推理芯片”为核心产品,被业内视为中国大陆少有的在技术路线层面对标Groq的团队[6] - 采用“双线布局”:SpinPU-M系列磁概率计算芯片覆盖组合优化市场;SpinPU-E磁逻辑计算芯片系列直指大模型推理解码阶段加速[7] - 核心技术路线是片上MRAM(磁性随机存储器),构建超高带宽磁性流式处理架构(MSA)[7][9] - 目标是将访存带宽密度提升至0.1-0.3 TB/mm²·s,比肩Groq LPU(0.11 TB/mm²·s),是英伟达H100(0.002-0.003 TB/mm²·s)的数十倍[12] - 公司是国内首个有能力跑通从物理、材料、器件到芯片设计、算法全链条的交叉团队,拥有“材料-器件-芯片-系统-算法”的全栈攻关能力[16] MRAM技术的优势与战略价值 - **存储密度领先**:MRAM采用1T1M结构,同等芯片面积和工艺节点下,存储密度是SRAM的5-6倍[11] - **工艺成本更低**:MRAM在国产成熟制程(如28nm/22nm)下性能可对标先进制程的SRAM,单片流片成本可降至原来的十分之一以下,保障供应链自主可控[20] - **非易失性与高能效**:断电后数据不丢失,待机功耗接近零,具备快速启动、高耐用性优势,为边缘和云端部署提供极佳能效[20] - **规避技术封锁**:美国出口管制限制内存带宽密度超过2GB/s/mm²的存储器,而HBM产能被海外巨头垄断,Groq的SRAM方案成本极高。MRAM基于成熟制程实现超高带宽,可规避对尖端工艺和海外供应链的依赖[21] - **市场前景广阔**:2024年全球MRAM市场规模估计为42.2亿美元,预计到2034年增长至约847.7亿美元,复合年增长率高达34.99%[30] 国内外MRAM产业发展现状 - **国际大厂积极布局**:台积电、三星、英特尔、SK海力士等已将嵌入式MRAM推进到22nm、16nm等节点。恩智浦、瑞萨电子、GlobalFoundries等已在汽车、工业领域推动MRAM商业化落地[23] - **国内生态初步形成**:RRAM领域有昕原半导体等玩家;MRAM赛道有寒序科技、致真存储、驰拓科技、凌存科技、亘存科技等企业[26] - **国内厂商侧重各异**:致真存储专注于MTJ器件与制造工艺,研制出全球首颗8Mb容量SOT-MRAM芯片;驰拓科技是国内首家实现MRAM量产的企业;凌存科技专注于存储模块开发[27] - **寒序科技的差异化定位**:以MRAM为核心介质构建计算芯片,开辟“磁性计算”新赛道,推动国内MRAM技术从存储替代向计算革新跨越[28][29] 下一代AI推理芯片的竞争格局 - 下一代竞争分水岭在于“谁能率先跨过带宽墙”,主导市场者需在“带宽战争”中沉淀出护城河[35] - 两条突破路径清晰:一是Groq选择的极致SRAM片上集成路径;二是以MRAM为代表的新型存储介质路线,后者更具根本性且符合长期成本与供应链安全需求[35] - “通用算力+专用引擎”成为行业趋势,英伟达收购Groq整合LPU即是例证。国内AI芯片厂商应加强与在新型介质与架构上有底层创新能力的团队合作[32] - 以MRAM为代表的新型存储已成为后摩尔时代核心焦点,有望成为中国AI芯片产业实现换道超车的关键抓手[33]
老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛
创业邦· 2026-01-06 12:28
公司战略与核心主题 - 公司五年来首次在CES展会未发布游戏显卡,明确将全力投入AI领域[2] - 本次发布的核心主题直指物理AI,旨在将护城河从芯片层拓展至全栈平台层(模型+数据+工具),以拉动GPU与基础设施投入并增强用户与生态锁定[8][10] 下一代数据中心架构:Vera Rubin - 正式推出下一代AI数据中心机柜架构Vera Rubin NVL72,由六大核心组件构成:Vera CPU、Rubin GPU、NVLink 6 switch、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6 Ethernet switch[14][15] - 在NVFP4数据类型下,Rubin GPU推理性能达50 PFLOPS,是Blackwell GB200的5倍;训练性能为35 PFLOPS,是Blackwell的3.5倍[4][17] - 每颗Rubin GPU封装8组HBM4内存,提供288GB容量和22 TB/s带宽[17] - 引入NVLink 6用于规模内扩展网络,单GPU互连带宽提升至3.6 TB/s(双向),每个Vera Rubin NVL72机架配备9颗交换芯片,总规模内带宽达260 TB/s[17] - Vera CPU集成88个定制Olympus Arm核心,采用空间多线程设计,最多可同时运行176个线程[17] - 用于机架扩展的Spectrum-X以太网交换机基于Spectrum-6芯片构建,采用共封装光学技术,其中SN688提供409.6 Tb/s总带宽,SN6810提供102.4 Tb/s总带宽[20] - 推出BlueField-4 DPU,构建新的推理上下文内存存储平台,旨在高效共享与复用键值缓存数据,提升系统响应与吞吐[22][24] - 与Blackwell相比,Vera Rubin在训练MoE模型时所需GPU数量仅为四分之一;在MoE推理场景下,每token成本最高可降低10倍[24] - 每个Vera Rubin NVL72机架可提供3.6 exaFLOPS的NVFP4推理性能、2.5 exaFLOPS的NVFP4训练性能、54 TB的LPDDR5X内存以及20.7 TB带宽达1.6 PB/s的HBM4内存[25] - 构建机架所需的六类芯片已全部从晶圆厂交付,预计2026年下半年启动规模化量产[24] 自动驾驶开源模型与生态 - 推出全新开源模型系列Alpamayo,面向安全推理的自动驾驶[26][27] - 发布全球首款开源、大规模的自动驾驶视觉-语言-行动推理模型Alpamayo 1,参数100亿,能让车辆理解环境并解释自身决策[29] - 配套推出开源仿真框架AlpacaSim,支持在不同环境与边缘场景中进行闭环训练与评估[31] - 发布包含1700小时驾驶数据的开源数据集,数据采集自全球广泛区域,涵盖复杂真实边缘场景[32] - Alpamayo将率先搭载于2025年第二季度欧洲上市的梅赛德斯-奔驰CLA车型,后续通过OTA升级逐步推送高速脱手驾驶、城市全场景自动驾驶等功能[32] - 展示了基于自身技术构建的全球L4级自动驾驶与Robotaxi生态系统全景,连接软件开发商、整车厂/出行平台、硬件供应商,覆盖全产业链[34] AI智能体与专项模型 - NVIDIA Nemotron在AI智能体领域推出针对语音、RAG以及安全三大场景的专项模型[37] - Nemotron Speech包含新的自动语音识别模型,支持实时低延迟场景,速度比同类模型快10倍,已被博世采用[39] - Nemotron RAG搭载新的视觉语言模型,能精准处理多语言、多模态数据,提升文档搜索效率[39] - Nemotron Safety系列模型专注于增强AI应用安全性与可信度,包括内容安全模型和检测敏感数据的PII模型[39] 物理AI与机器人平台 - 为机器人推出的推理大脑Cosmos平台升级,主要用于生成符合现实世界物理规律的合成数据,已被Figure、Agility Robotics、通用汽车等公司采用[40][41] - 发布Cosmos Reason 2视觉-语言推理模型,帮助机器人与AI智能体更精准地感知、理解并与物理世界交互[45] - 发布Cosmos Transfer 2.5与Cosmos Predict 2.5模型,可在不同环境与条件下生成大规模的合成视频[45] - Salesforce、Milestone、Hitachi等企业正采用Cosmos Reason模型开发AI智能体;Franka Robotics等利用Isaac GR00T模型对机器人行为进行仿真、训练与验证[46] - 面向机器人领域推出NVIDIA Isaac GR00T[11] 医疗健康与生命科学AI - NVIDIA Clara是专门针对医疗健康与生命科学领域的AI技术工具,旨在降低行业成本、加速治疗方案落地[48] - La-Proteina模型能设计原子级精度的大型蛋白质[48] - ReaSyn v2模型在药物发现阶段即考虑生产问题[48] - KERMT模型可以预测潜在药物进入人体后的反应,提前排查安全问题[50] - RNAPro模型用来预测RNA分子复杂的3D结构,推进个性化医疗[50] - 将为研究者提供包含45.5万个合成蛋白质结构的数据集[49] 开源与社区贡献 - 公司宣布持续向社区开源训练框架以及多模态数据集[8] - 开源数据集包括10万亿语言训练token、50万条机器人轨迹数据、45.5万个蛋白质结构、100TB车辆传感器数据[8] 对中国开源模型的提及 - 公司在演讲开篇提及了DeepSeek,Kimi K2、Qwen也出现在PPT展示页上[12]
黄仁勋回击AI泡沫论,GPU全卖光,Q3净赚2200亿
36氪· 2025-11-20 09:12
财务业绩表现 - 2026财年第三季度营收达570.06亿美元,同比增长62%,环比增长22% [1] - 非GAAP净利润为317.67亿美元,同比增长59%,环比增长23% [1] - 非GAAP毛利率为73.6%,环比增长0.9个百分点,预计下季度将达到75% [8][9] - 数据中心业务营收创下512亿美元新纪录,同比增长66%,环比增长25% [6] - 数据中心网络业务同比增长162%,环比增长13% [6] - 公司预计第四季度营收将达650亿美元,上下浮动2% [9] 业务部门营收构成 - 计算与网络部门贡献509.08亿美元营收,同比增长59%,环比增长23% [6] - 计算机图形部门贡献60.98亿美元营收,同比增长51%,环比增长13% [6] - 专业可视化业务营收7.6亿美元,同比增长56% [7] - 游戏业务营收42.65亿美元,同比增长30% [7] - 自动驾驶业务营收5.92亿美元,同比增长32% [7] 市场需求与增长驱动力 - 所有英伟达GPU均处于满载运行状态,云服务商容量已售罄 [2] - 支撑业绩的两大支柱为超大规模云厂商和基础模型厂商,贡献各占约50% [2] - 从年初到2026年底,Blackwell和Rubin架构产品营收预期总额达5000亿美元 [2] - 2026年顶级云服务提供商资本支出预期上调至约6000亿美元,较年初预测高出逾2000亿美元 [14] - 数据中心投资中流向英伟达的资金比例从Hopper时代的20%-25%增长至Blackwell时代的30%左右 [14] 战略定位与行业转型 - 公司正参与三次大规模平台转型:从CPU到GPU加速计算的过渡、AI催生新应用的过渡、Agentic AI的兴起 [1][10] - 生成式AI正改变工作流程,使搜索、推荐系统、广告推荐等核心业务迁移到GPU上运行 [11] - 公司与微软共同向Anthropic投资150亿美元,这是Anthropic首次使用英伟达架构 [12] - 公司产品策略从单一GPU扩展到打造整个机架、多种交换机和芯片,进行内存架构创新 [13] 特定市场表现 - 面向中国市场的H20销售额约为5000万美元,因地缘政治问题及竞争激烈,大额采购订单未能实现 [2]