AI推理
搜索文档
存储再度爆发!AI推理与多模态驱动数据爆炸,硬盘和闪存厂商将成最大受益者
华尔街见闻· 2026-01-07 09:51
核心观点 - AI发展正从资本支出驱动的模型训练阶段,转向以投资回报率为核心的推理应用阶段,这一转变正在引发市场对存储板块的价值重估,存储被视为承载“AI工作记忆”的关键,相关公司股价已出现显著上涨 [1][2] AI浪潮推动存储价值重估 - 英伟达CEO黄仁勋指出,AI存储是一个“完全未被开发的市场”,很可能成为全球最大的存储市场,承载全球AI的工作记忆 [1] - 英伟达展示了针对代理AI推理优化的新存储平台,承诺比传统平台提高五倍的能效 [1] - 市场对存储板块的重估源于AI工作负载从训练向推理的转变,以及多模态AI带来的数据爆炸 [4][7] - 2026年预计将成为企业级和边缘AI的拐点,AI推理将占据主导地位,推动存储需求同步飙升 [1][7] 数据爆炸与存储需求 - 全球年度数据生成量预计将从2024年的173 ZB飙升至2029年的527 ZB,五年内增长两倍以上,复合年增长率约为25% [4] - 多模态生成式AI需要处理和生成图像、视频、音频等非结构化数据,这些数据体积庞大且需要频繁读写,使存储成为AI计算流程中不可或缺的活跃参与者 [7] - 企业为训练、分析和合规目的需要保留越来越多数据,直接推高了存储需求 [7] 硬盘(HDD)市场的机遇 - 机械硬盘凭借成本优势和容量密度,在海量数据存储领域地位不可替代 [8] - 多模态AI和推理需求增加将直接推动硬盘出货量增长,并促使客户转向更高容量的驱动器,提升希捷和西部数据的每TB价值 [8] - 希捷的HAMR技术和西部数据的UltraSMR技术旨在满足对单盘容量和能效的极致追求 [10] 闪存(NAND)与边缘AI的机遇 - AI推理过程需要存储提示词、反馈标签、安全日志及用于检索增强生成的向量数据库,这需要大量随机I/O和写入操作,推高了高性能企业级SSD的需求 [10] - 边缘AI在手机、PC、汽车等终端设备上直接运行,要求极低延迟和高可靠性,推动了存储介质向高性能UFS和NVMe接口转移 [9][10] - 闪迪作为嵌入式和可移动闪存领导者,将受益于单设备存储容量提升和产品结构升级 [10] - 苹果凭借庞大的设备基数、自研芯片和对隐私的追求,被视为“终极边缘AI玩家”,能通过端侧AI提供快速、安全的体验 [10] - 戴尔和惠普将受益于企业对“AI PC”的换机需求,Gartner预测2025年AI PC将占所有PC出货量的43% [10] 供给紧张与价格展望 - 随着AI训练和推理需求增长,存储供应趋紧,价格正在飙升 [12] - 三星电子和SK海力士正寻求在第一季度将服务器DRAM价格较去年第四季度上调60%至70% [12] - 硬件支出在IT行业的收入占比自2022年以来逐年上升,行业正在进入一个“硬件复兴时代” [12] - 在此周期中,提供“记忆”的存储厂商,以及提供连接的安费诺和康宁,都将成为AI推理浪潮的核心受益者 [12] 市场表现 - 周二美股存储概念股集体飙升,闪迪暴涨27.56%,创下自2月以来最佳单日表现 [1] - 西部数据和希捷科技分别大涨16.77%和14.00% [1]
GPU直连技术引关注,美股存储巨头大爆发
选股宝· 2026-01-07 07:31
行业动态与市场表现 - 隔夜美股存储公司股价集体大幅上涨,其中闪迪涨幅超过20%,西部数据和希捷科技涨幅均超过10% [1] - 股价上涨的驱动因素除存储产品涨价外,还包括英伟达正在探索GPU与SSD直连的新技术 [1] 技术趋势与需求驱动 - AI推理中的检索增强生成(RAG)向量数据库正推动SSD需求增长,其存储介质正从“内存参与检索”向“全SSD存储架构”过渡 [1] - 向量数据库要求存储介质承载大规模向量数据及索引结构,并支持高吞吐和低时延,以满足高并发相似度检索需求 [1] - 全SSD存储架构的转变将推动高带宽、大容量SSD的需求持续增加 [1] - RAG架构为大模型提供长期记忆,企业和个性化需求共同推动了对RAG存储需求的增长 [1] 具体技术与产品进展 - 火山引擎TOS推出Vector Bucket架构,采用字节自研的Cloud-Native向量索引库Kiwi与多层级本地缓存协同架构,涵盖DRAM、SSD与远程对象存储 [1] - 该架构在大规模、长周期存储和低频查询场景下,能满足高/低频数据的分层需求,并显著降低企业大规模使用向量数据的门槛 [1] 相关公司业务 - 联芸科技的数据存储主控芯片产品聚焦于固态硬盘(SSD)领域 [2] - 海量数据发布的Vastbase G100 V3.0版本产品面向人工智能应用场景整合了向量数据库能力,为多维大数据量场景提供多种近似、最近邻搜索算法索引 [2]
AI竞赛转向推理,如何影响国际科技竞争格局?
21世纪经济报道· 2026-01-07 06:41
全球AI竞赛转向推理驱动 - 英伟达CEO黄仁勋在2026年1月CES展会提前发布下一代AI芯片平台"Rubin",打破其传统在3月GTC大会发布新品的惯例,此举释放出全球AI竞赛正从"训练主导"全面转向"推理驱动"的关键信号 [2] - 这一转变不仅是技术路线的演进,更是整个AI产业生态、基础设施布局乃至国家间科技竞争格局的重大转折点 [2] 推理场景的特点与需求 - 推理场景具有高频、低延迟、高并发、成本敏感等特点,例如智能客服系统每天可能处理数百万次查询,每次需毫秒级响应,自动驾驶需在复杂环境中持续进行多模态推理 [3] - 这些需求对硬件效率、能耗比、系统协同性提出了远高于训练阶段的要求 [3] 英伟达Rubin平台的技术亮点 - Rubin平台专为推理时代打造,在推理token成本上最高可降低10倍 [3] - 平台通过集成CPU、GPU、DPU、SuperNIC、交换芯片等六颗芯片,构建了"极端协同"的全栈系统 [3] - Rubin同步推出了专为推理设计的"上下文存储平台",用于高效管理KV Cache,避免重复计算,显著提升推理效率 [3] - 这表明AI基础设施的竞争已从单一芯片性能,升级为系统级工程能力的比拼 [3] 全球AI发展的马太效应 - 拥有强大算力和先进推理系统的国家与企业,将更快实现AI商业化落地,形成数据—模型—应用—收入的正向循环 [3] - 缺乏底层基础设施能力的参与者,将越来越依赖外部平台,陷入"应用繁荣但根基脆弱"的困境 [3] 中国AI产业的现状与挑战 - 中国在大模型研发上取得显著进展,涌现出通义、文心、混元等优秀模型,但在底层硬件和系统级优化方面仍存在短板 [4] - 国产GPU如昇腾、寒武纪等取得一定突破,但在软件生态、系统协同、能效比等方面仍需进一步提升 [4] - 国内AI基础设施在对推理场景的深度优化方面还有很大发展潜力,例如KV Cache管理、动态批处理、模型量化压缩等关键技术尚未在主流国产平台上实现高效集成 [4] 对中国AI产业发展的建议 - 强化全栈式AI基础设施研发,秉持"协同设计"理念,推动国产CPU、DPU、高速互连、AI原生存储等组件的联合创新,鼓励芯片企业与阿里云、腾讯云、百度智能云等云厂商深度合作,构建自主可控的推理系统栈 [4] - 大力发展推理优化技术与开源生态,支持攻关低比特量化、稀疏化推理、动态批处理、缓存复用等核心技术,推动建立中文AI推理基准测试体系,鼓励开源社区围绕国产硬件适配推理框架 [5] - 抢占物理AI与边缘推理新赛道,加快部署面向边缘端的轻量化推理芯片与开发平台,支持机器人、自动驾驶、工业智能、具身智能、车路协同等创新应用,通过"场景驱动+技术反哺"模式倒逼底层硬件与系统软件的协同进化 [5] AI产业范式转移 - Rubin平台等AI新产品的发布,不仅是技术迭代的里程碑,更是AI产业范式转移的宣言书 [5] - 当AI从"能回答问题"迈向"能理解世界、规划行动、完成任务"的智能体阶段,推理能力将成为衡量国家AI竞争力的关键指标 [5] - 产业界需摒弃"唯训练论"的惯性思维,以系统工程视角重构AI基础设施,才能在推理时代赢得主动权 [5]
纳指高开0.22%,英伟达涨1.3%,禾赛涨近8%
格隆汇· 2026-01-06 22:37
美股市场指数表现 - 美股三大指数开盘涨跌不一,纳斯达克指数上涨0.22%,标普500指数上涨0.1%,道琼斯工业指数下跌0.03% [1] 英伟达公司动态 - 英伟达股价上涨1.3% [1] - 公司入选2026年格隆汇“全球视野”十大核心资产 [1] - 其Vera Rubin平台已全面投产,该平台使AI推理性能提升5倍,同时将成本降至原来的十分之一 [1] - 公司选定禾赛科技作为其激光雷达合作伙伴 [1] 诺和诺德公司动态 - 诺和诺德股价上涨4.3% [1] - 公司日前在美国正式推出全球首款用于成人减重的GLP-1口服药 [1] 禾赛科技公司动态 - 禾赛科技股价上涨近8% [1] - 公司规划到2026年将年产能翻番,达到400万台 [1] - 公司获英伟达选定为激光雷达合作伙伴 [1] 蔚来公司动态 - 蔚来股价上涨2.3% [1] - 公司第100万台汽车已下线 [1] - 公司首席执行官李斌表示,未来每年销量目标要增长40%至50% [1]
黄仁勋罕见提前宣布:新一代GPU全面投产
21世纪经济报道· 2026-01-06 13:27
产品发布节奏与战略 - 英伟达在2026年1月5日的CES上,出乎意料地提前发布了下一代AI芯片平台"Rubin",打破了其通常在每年3月GTC大会上集中公布新一代架构的传统[2] - 公司高管表示,提前披露Rubin主要是为了尽早向生态伙伴提供工程样品,方便其为后续部署和规模化应用做准备,但Rubin仍将按照既定节奏推进,计划在2026年下半年进入量产爬坡阶段[7] - 此次发布标志着AI竞赛进入推理时代,公司决定加速出击[3] Rubin平台核心规格与性能 - Rubin平台采用极端协同设计理念,整合了6颗芯片,包括NVIDIA Vera CPU、Rubin GPU、NVLink 6交换芯片、ConnectX-9 SuperNIC、BlueField-4 DPU以及Spectrum-6以太网交换芯片[5] - 相比前代Blackwell架构,Rubin加速器在AI训练性能上提升3.5倍,运行性能提升5倍,并配备拥有88个核心的新款中央处理器(CPU)[5] - 相比Blackwell平台,Rubin平台实现推理token成本最高可降低10倍,训练MoE模型所需GPU数量减少4倍[5] - 同步发布了Vera Rubin NVL72机柜级系统,该系统包含72个GPU封装单元,每个封装内部包含2个Rubin Die,因此系统中实际包含144个Rubin Die[6] 生态系统与合作 - Rubin平台已获得头部云厂商和模型公司的集中响应,首批采用名单包括AWS、Microsoft、Google、OpenAI、Anthropic、Meta、xAI、CoreWeave等[6] - 构成Vera Rubin平台的六颗芯片已经全部到位,相关系统已在运行真实应用负载,并取得了积极结果[7] 全栈AI与推理系统布局 - 公司发布了一系列AI体系产品,包括开源模型、AI存储、物理AI等,展示了其全栈AI布局,并释放信号表明AI重心继续从"训练规模"转向"推理系统"[9] - 发布了推理上下文存储平台,这是一个专为推理场景设计的AI原生存储平台,由BlueField-4 DPU与Spectrum-X以太网支撑,用于高效管理和共享KV Cache,减少重复计算带来的算力浪费[9] - 公司特别强调了物理AI的长期布局,发布了一系列开源模型、开发框架和硬件平台,将AI能力从数据中心延伸至机器人、自动驾驶与工业边缘场景[9] 物理AI具体产品发布 - 面向机器人领域,发布了Cosmos与GR00T系列开源模型,用于机器人学习、推理与动作规划[9] - Cosmos Reason 2是一款推理型视觉语言模型,使机器能够"看见、理解并在物理世界中行动"[10] - GR00T N1.6 则是一款面向类人机器人的推理型视觉-语言-动作模型,用于解锁全身控制能力[10] - 在自动驾驶领域,发布了Alpamayo开源模型家族,定位为面向"长尾场景"的推理型自动驾驶基础模型,配套发布了AlpaSim高保真仿真框架以及覆盖1700多小时驾驶数据的开源数据集[13] - 公司首款AV车将于2026年第一季度在美国推出,其他地区紧随其后[13] 行业竞争格局演变 - 从Rubin平台的提前亮相,到推理存储与物理AI的同步推进,公司正在将AI基础设施的竞争推向"系统工程能力"[13] - 在这一阶段,真正拉开差距的,已不只是芯片算力本身,而是从架构、系统到生态的整体交付[13]
AI竞赛转向推理,英伟达宣布Rubin芯片平台全面投产
21世纪经济报道· 2026-01-06 08:40
产品发布与战略节奏 - 英伟达在2026年1月5日的CES上意外提前发布下一代AI芯片平台"Rubin",打破了通常在每年3月GTC大会发布新架构的传统 [1] - Rubin平台采用极端协同设计理念,整合了6颗全新芯片,包括NVIDIA Vera CPU、Rubin GPU、NVLink6交换芯片、ConnectX-9 SuperNIC、BlueField-4 DPU以及Spectrum-6以太网交换芯片 [4] - 公司高管表示,提前披露Rubin是为了尽早向生态伙伴提供工程样品,为后续部署做准备,量产爬坡计划仍按既定节奏在2026年下半年进行 [5] 性能提升与成本优势 - 相比前代Blackwell架构,Rubin加速器在AI训练性能上提升3.5倍,运行性能提升5倍,并配备拥有88个核心的新款CPU [4] - 与Blackwell平台相比,Rubin平台可将推理token成本降低最高90%,并将训练混合专家模型所需的GPU数量减少75% [4] - 同步发布了Vera Rubin NVL72机柜级系统,该系统包含72个GPU封装单元,每个封装内部包含2个Rubin Die,因此实际包含144个Rubin Die [5] 生态系统与合作伙伴 - Rubin平台已获得头部云厂商和模型公司的集中响应,首批采用名单包括AWS、Microsoft、Google、OpenAI、Anthropic、Meta、xAI、CoreWeave等 [5] - 构成Vera Rubin平台的六颗芯片已经全部到位,相关系统已在运行真实应用负载并取得积极结果 [5] 全栈AI与推理时代布局 - 公司发布了一系列AI体系产品,包括开源模型、AI存储、物理AI等,标志着AI重心从"训练规模"转向"推理系统" [6] - 发布了推理上下文存储平台,这是一个专为推理场景设计的AI原生存储平台,由BlueField-4 DPU与Spectrum-X以太网支撑,用于高效管理和共享KV Cache,减少算力浪费 [6] - 公司强调AI已从聊天机器人演变为能够理解物理世界、进行长期推理、使用工具并保有记忆的智能协作者 [6] 物理AI与机器人领域 - 围绕物理AI推进,发布了一系列开源模型、开发框架和硬件平台,将AI能力延伸至机器人、自动驾驶与工业边缘场景 [6] - 面向机器人领域,发布了Cosmos与GR00T系列开源模型,其中Cosmos Reason2是推理型视觉语言模型,GR00T N1.6是面向类人机器人的推理型视觉-语言-动作模型 [7] - 公司认为机器人领域的"ChatGPT时刻"已经到来,其完整技术栈正在赋能合作伙伴通过AI机器人重塑行业 [7] 自动驾驶领域 - 在自动驾驶领域,发布了Alpamayo开源模型家族,定位为面向"长尾场景"的推理型自动驾驶基础模型 [9] - 配套发布了AlpaSim高保真仿真框架以及覆盖1700多小时驾驶数据的开源数据集 [9] - 公司首款AV车将于2026年第一季度在美国推出,其他地区紧随其后 [9] 行业竞争格局演变 - 随着AI进入推理阶段,英伟达将AI基础设施的竞争推向"系统工程能力" [9] - 真正拉开差距的已不只是芯片算力本身,而是从架构、系统到生态的整体交付能力 [9]
英伟达200亿美元“押注”背后的深意
美股研究社· 2026-01-05 20:54
文章核心观点 - 英伟达以约200亿美元的天价收购AI芯片独角兽Groq的团队和非独家技术授权,此举旨在强化其在AI推理市场的布局,并标志着可重构计算架构作为继GPU和ASIC之后的第三大主流AI芯片技术路径获得巨头认可,其稀缺性与市场价值被显著拉高[4][5][6][23][24] - 随着大模型进入规模化部署,AI算力消耗形态向推理倾斜,对低延迟、高能效和高并发提出更高要求,这为可重构芯片提供了巨大的市场机遇[7][23] - 以清微智能为代表的国产可重构AI芯片企业,在资本与产业支持下已实现规模化商用并启动IPO,成为中国实现算力自给和规避单一架构风险的重要方向[19][20][22] 交易细节与战略意图 - 交易金额高达约200亿美元,超过了英伟达历史上的任何一笔并购,预计将消耗其2025年底可能超过700亿美元现金储备的近三分之一[4][9] - 英伟达收购的核心目标是获取Groq在AI推理领域的技术与团队,计划将其低延迟处理器集成到NVIDIA AI Factory架构中,以服务更广泛的AI推理与实时工作负载[7][16] - Groq在交易前并未寻求出售,其在2025年9月完成新一轮7.5亿美元融资后,投后估值约为69亿美元,2025年营收目标为5亿美元[10] Groq的技术与市场价值 - Groq的核心技术是其特有的LPU芯片,采用软件定义硬件的可重构数据流架构,也被称为“进阶版TPU”[4][11] - 该芯片专为推理优化,在int8精度下峰值算力达750TOPS,运行万亿参数大模型可实时生成token[13] - 技术实现依赖于TSP架构、极致确定性和采用SRAM,通过编译器实现时钟级确定性,相比GPU采用的外部HBM,SRAM访问速度更快[14] - 在推理延迟和吞吐上,Groq芯片能实现比GPU快5-18倍、能效比高10倍的突破[18] - Groq的市场价值还包括其在中东的布局:已获得沙特阿拉伯15亿美元的投资承诺,并于2024年12月建成沙特最大的推理集群[10] AI芯片主流技术路径形成 - 英伟达收购Groq、英特尔洽购SambaNova等动作,标志着主流AI芯片三大技术流派正式形成[17] - **GPU**:擅长暴力并行计算,生态最强,是大模型训练首选,但推理时存在高能耗劣势,代表企业有英伟达、摩尔线程等[17] - **ASIC/DSA**:专用芯片,为AI运算极致优化,但处理非矩阵运算时性能下降,代表企业有谷歌、寒武纪、昆仑芯等[17] - **可重构**:根据数据流动态重构计算路径,能适应多元化算法,在能效和延迟上优势明显,代表企业有SambaNova、Groq以及清微智能等[17] - 可重构架构的实现方法主要有两种:Groq采用的依靠编译器实现逻辑重构;以及更经典的依靠硬件内部可编程交换矩阵实现物理连接动态重构[18] 国产可重构芯片的进展与机遇 - 清微智能作为全球最早实现可重构计算商用的企业之一,已完成超20亿元C轮融资,并启动上市筹备,目标成为国内“非GPU”新型架构芯片领域首个上市标杆企业[19][20] - 公司得到国家集成电路产业投资基金、多家国资机构以及蚂蚁集团、百度、商汤、兆易创新等产业投资方的支持[20] - 在先进制程受限背景下,可重构芯片通过架构创新换取性能,成为国产替代的重要方向[20] - 清微智能2025年算力卡订单超过3万张,累计出货超过3000万颗,在全国十多座千卡规模智算中心实现规模化落地,出货量已跻身国内AI芯片第一梯队[22] - 公司下一代芯片性能将大幅提升,其架构具备与3D芯片、晶圆级芯片等前沿技术结合的升级路径,并拥有高效的多芯片互连技术TSM-LINK[20]
瀚博半导体:争做全球AI推理芯片的领导者
新浪财经· 2026-01-04 20:25
行业趋势与市场信号 - 英伟达拟以约200亿美元收购AI加速芯片初创公司Groq的核心资产与团队,以强化其在AI推理领域的布局[1][9] - 该并购被业内视为清晰信号,表明AI算力的重心正从“训练为王”转向“推理为先”[1][9] - 随着大模型走向规模化应用,实时、低成本、可部署的推理能力成为新的竞争焦点[1][9] - 在AGI时代,AI大模型应用对“云端AI推理+云端渲染”产生海量需求,市场被描述为蓝海[4][12] 公司创立与核心团队 - 瀚博半导体于2018年创立,创始团队在当时即洞见到云端AI推理市场具有比训练市场更大的爆发力[1][9][10] - 创始人兼CEO钱军拥有近30年高端芯片设计经验,曾是全球第一颗7纳米GPU设计量产的带头人及AMD前高管[4][12] - 联合创始人兼CTO张磊是AMD院士,拥有超过25年芯片领域经验及超过50项核心专利和在途专利[4][12] 公司战略与产品定位 - 公司战略高度聚焦,选择将资源集中于AI推理赛道,而非追逐全赛道[5][13] - 首款产品定位于对实时性要求极为苛刻的视频处理与AI加速领域,首颗芯片实现回片后8分钟成功点亮[5][13] - 公司已推出SV和SG两大系列AI推理和渲染芯片[4][12] - 公司强调其商业模式是提供可落地、高性价比的解决方案,而非单纯销售芯片[6][14] - AI训练芯片的核心是“能不能”,而AI推理芯片的诉求点是“是不是划算”[6][14] 技术优势与市场进展 - 瀚博SV系列芯片在深度学习推理等特定场景下,数据吞吐速度可达通用GPU的2倍,且带宽要求更低[6][14] - 公司产品是国内少数原生支持FP8大模型推理的产品之一[6][14] - 凭借SG系列全功能GPU,公司在云手机、AI Agent云底座、云游戏、云桌面等云端渲染应用领域取得突破,成为互联网和运营商的首选方案[6][14] - 公司的超低延时渲染技术及生态适配已获得顶级客户认可[6][14] - 产品及解决方案已在几乎所有国内头部互联网公司和多家运营商实现商业化落地[4][12] 发展前景与行业预测 - 公司预测2027年可能是国产AI推理芯片规模化替代的关键节点,到2030年则有望在主流场景全面站稳脚跟[8][16] - 公司当前已实现市场化成功与云端渲染领先地位,产品在关键场景实现规模化商业落地[8][16] - 公司的长期目标是成为全球AI推理芯片领域的领导者[4][8][12][16]
英伟达仍是王者,GB200贵一倍却暴省15倍,AMD输得彻底
36氪· 2026-01-04 19:13
AI推理游戏规则的转变 - 行业评估AI基础设施的关键指标正从单纯的算力硬指标转向“每一美元能输出多少智能”即单位成本的智能输出效率[1][4][20] - 顶级投资人指出当前竞争焦点不再是算力或GPU数量而是每一美元能买到的智能输出[4] - 随着混合专家模型和高强度推理工作负载成为主流行业已无法仅依赖芯片层面的性能提升平台级设计成为决定性因素[20][46] 模型架构演进:从稠密模型到混合专家模型 - 传统稠密模型在生成每个Token时需激活全部参数导致模型越大运行越慢、成本越高、内存需求增长[9] - 混合专家模型架构旨在释放更高水平智能每个Token只激活最相关的“专家”从而提升效率[11] - 全球TOP 10开源大语言模型全部是混合专家模型推理模型在推理阶段会先生成中间推理Token以提高准确性这导致推理Token数量往往远多于最终回复[11][14] 混合专家模型面临的核心挑战 - 混合专家模型的一个核心限制在于“通信瓶颈”当不同专家分布在多块GPU上时GPU间通信延迟会导致GPU空闲等待数据造成算力浪费[14] - 这些“空转时间”直接体现在服务提供商的成本底线上[17] - 评估AI基础设施“经济性”时需聚焦性能、能效和总体拥有成本三方面[17] 英伟达与AMD在稠密模型推理上的性能对比 - 以Llama 3.3 70B为基准在稠密模型推理中英伟达HGX B200方案在整个吞吐量与交互性区间内具备持续性能优势[21] - 在基线交互性水平下B200性能大约是AMD MI355X的1.8倍为交互式应用部署提供显著余量[21] - 当交互性提升至110 tokens/sec/user时B200吞吐量超过MI355X的6倍优势进一步放大[24] 英伟达与AMD在混合专家模型推理上的性能对比 - 在中等规模混合专家模型推理中对于gpt-oss-120B模型当目标是100 tokens/sec/user时B200比MI355X快约1.4倍当目标提高到250 tokens/sec/user时差距扩大到约3.5倍[30] - 通过软件优化双方平台性能均获提升英伟达单GPU峰值吞吐从约7,000 tokens/sec提升到超过14,000 AMD从约6,000提升到约8,500[30] - 在前沿混合专家模型推理中英伟达GB200 NVL72大幅领先在DeepSeek-R1测试中其性能是AMD MI350X吞吐量的28倍[1][18] GB200 NVL72的系统级优势与性能表现 - GB200 NVL72采用机柜级NVLink互联与软件调度能力彻底改变了成本结构[4] - 其让超过8块GPU的张量并行配置也能进入帕累托前沿达到单节点平台无法匹敌的性能[36] - 在25 tokens/sec/user交互性目标下GB200 NVL72单GPU性能大约是H200的10倍超过MI325X单GPU性能的16倍[36] - 当交互性目标提高到60 tokens/sec/user时GB200 NVL72相比H200带来超24倍的代际提升同时接近MI355X的11.5倍性能[37] 单位Token成本的经济性分析 - 尽管GB200 NVL72的单GPU小时价格几乎是竞争平台的2倍但其机架级能力推动了显著更优的单位经济性[20] - 在高交互性的推理工作负载中GB200 NVL72的单位Token成本最低可降至其他方案的约1/15[20] - 按CoreWeave目录价GB200 NVL72单GPU小时价格比H200贵1.67倍但由于其性能提升幅度估计达约20倍使其每美元性能优势达约12倍相对每Token成本仅为H200的1/12[41][42] - 与AMD MI355X相比按单GPU口径MI355X价格约为GB200 NVL72的一半但GB200 NVL72凭借从5.85倍到28倍不等的单GPU性能优势能提供最高15倍的每美元性能优势实现相对每Token成本仅为竞争对手的1/15[44][45] 行业未来趋势与竞争格局 - 前沿AI模型的未来将是更大、更复杂的混合专家模型来自OpenAI、Meta、Anthropic等公司的旗舰模型预计会继续沿此方向演进[46] - 随着模型更深地走向混合专家与推理架构平台级设计成为决定性因素包括互连与通信效率、多节点扩展特性、软件栈成熟度、生态支持与编排能力等[46] - 如果当前轨迹成立英伟达将维持关键的性能与经济性优势谷歌TPU等架构对非自家模型的适用性与性能表现仍不明确[46] - 性能差异能直接转化为可量化的商业结果例如当平台在某个交互性目标下提供28倍的单GPU吞吐提升时可在不线性扩大硬件规模的情况下解锁新产品档位及更复杂功能[47]
大手笔背后的焦虑,英伟达用200亿美元购买Groq技术授权
搜狐财经· 2026-01-01 18:19
交易核心概览 - 英伟达在2025年圣诞前夜宣布一项价值200亿美元的重大交易,以获取AI芯片初创公司Groq的技术授权,并招募其包括首席执行官在内的核心高管团队 [1] - 该交易是英伟达历史上规模最大的一笔,金额几乎相当于其过去所有并购案的总和 [1] - 交易模式并非完全收购,而是非排他性技术授权结合人才挖角,旨在规避潜在的反垄断审查 [3][4][6] 交易结构与战略意图 - 交易设计为“技术授权”而非直接收购,是规避监管审查的巧招,因英伟达市值已接近3.5万亿美元,其大动作受到监管机构密切关注 [3][4] - 200亿美元不仅购买了技术,还获得了整个团队的经验和专利,特别是Groq的创始人,他是谷歌TPU的创始人之一,在AI芯片架构方面拥有顶尖专业知识 [6][8] - 此举使英伟达既获得了核心技术,又网罗了顶尖人才,同时规避了直接收购可能带来的监管风险 [8] Groq的核心技术价值 - Groq的核心产品是LPU(语言处理单元),这是一种专为AI推理设计的芯片,与英伟达的GPU有本质不同 [9] - LPU针对大语言模型实时推理采用确定性架构,将计算和数据流动设计为确定性流水线,大幅减少了内存调用次数,从而实现了极低的延迟 [15][17] - 业内测试显示,在生成式AI任务中,LPU的延迟可低至每token几十微秒级别,在聊天机器人、实时翻译等需要快速响应的场景中具有关键速度优势 [17] - Groq宣称其LPU在推理速度上比英伟达的H100更快,且成本更低 [11] 行业竞争格局与英伟达的挑战 - AI芯片市场正从一家独大转向群雄逐鹿,英伟达在训练市场近乎垄断,但推理市场的竞争正在加剧 [11][27] - 竞争对手包括谷歌的TPU、亚马逊的Trainium、AMD的Instinct,它们都在积极争夺推理市场份额 [19] - 苹果、Anthropic等科技巨头已开始使用谷歌TPU训练模型,Meta也计划在2027年部署谷歌TPU,这直接绕过了英伟达的芯片 [20] - 在推理端,由于任务相对标准化,对英伟达CUDA软件生态的依赖较弱,这为其他厂商培养独立开发者社区、绕过CUDA护城河提供了机会 [20][22] 交易对英伟达的战略意义 - 此次交易被视为英伟达为应对竞争而购买的“保险”,旨在补齐其在AI推理端的短板,获得不落后的技术,并争取继续领先的时间窗口 [22][24] - Groq的LPU技术可整合进英伟达现有产品线,并借助英伟达强大的分销渠道和生态,加速其全球市场覆盖 [25] - 对于中小型AI公司而言,英伟达与Groq的组合可能成为最优选择,有助于将开发者的采购需求重新吸引回英伟达平台 [25][27] - 200亿美元的巨额交易额也反映出英伟达在日益激烈的竞争环境中的焦虑,面对谷歌TPU的早期布局、亚马逊新芯片的逼近以及AMD的快速追赶,收编潜在威胁对手成为其战略选择 [27][29] - 这笔交易标志着AI芯片行业竞争加剧,未来推理市场将成为主战场,技术创新与生态协同将是制胜关键 [29]