生态城墙
搜索文档
英伟达,筑起新高墙
36氪· 2026-01-13 10:39
英伟达与Groq的交易本质与战略意图 - 英伟达与推理芯片初创公司Groq达成一项“非独家许可协议”,Groq创始人兼CEO、总裁及多名核心成员将加入英伟达,参与授权技术的推进与规模化 [1] - 该交易虽非形式上的收购,但实现了技术被许可、团队被吸纳的关键结果,是一种典型的“收购式招聘”,旨在将潜在威胁纳入自身体系 [1] - 交易发生在AI芯片竞争从“训练为王”转向“推理决胜”的敏感时间点,英伟达GPU统治训练市场,但在推理端面临AMD、定制ASIC及云厂商自研芯片的竞争 [2] - Groq的LPU专为推理设计,主打极致低延迟和性能确定性,其创始人被视为谷歌TPU背后的关键推手,英伟达此举意在竞争白热化前提前消除潜在威胁 [2] Groq的技术价值与市场定位 - Groq的核心技术是自研的LPU架构,采用静态调度、数据路径固定的“确定性设计”,芯片内部使用SRAM技术,而非片外HBM显存,实现了某些场景下的极致低延迟 [4] - 公司创始人Jonathan Ross是Google第一代TPU的首席架构师,其目标是打造比TPU更快、更可控的“通用AI处理器” [4] - Groq最初尝试进入训练市场但受阻,因其架构对主流AI框架兼容性有限且缺乏成熟编译工具链,迁移成本高 [4] - 从2023年下半年开始,Groq明确转向推理即服务方向,2024年展示其系统运行Llama 2-70B模型时,实现每秒超过300个Token的生成速度,远超主流GPU系统 [5] - 其低延迟优势吸引了金融交易、军事信息处理、语音/视频同步字幕生成等垂直行业用户,并通过GroqCloud平台提供API访问,与LangChain、LlamaIndex等生态集成 [5] 英伟达在集群与系统控制层的战略布局 - 英伟达于2022年1月收购了集群管理软件公司Bright Computing,其工具Bright Cluster Manager在全球拥有超过700家用户,收购金额未公开,但该公司此前共筹集1650万美元 [7] - 该工具被纳入英伟达AI Enterprise软件堆栈并更名为Base Command Manager,成为AI系统的“底层控制平面”,英伟达通过许可证模式按每个GPU每年4500美元的费用出售“系统能力” [8] - 英伟达设定了商业策略:对每个节点包含8个GPU以内的集群提供免费的BCM许可证但不提供技术支持,促使企业为稳定生产环境购买AI Enterprise许可证 [9] - 在Base Command Manager之上,英伟达叠加了Mission Control,用于自动部署集成了框架、工具、模型、容器、健康检查和功耗优化的“AI工厂” [9] - 2024年,英伟达收购了Run.ai,其核心价值在于实现GPU资源的抽象化管理,如多租户、弹性调度、优先级控制和GPU虚拟化,防止调度权被云厂商掌控而稀释CUDA生态优势 [10] - 2025年12月,英伟达收购了SchedMD,获得了超级计算领域事实标准的工作负载管理器Slurm背后的核心团队和技术支持权,Slurm在过去十年中用于约60%的Top500超级计算机 [12][13] - 通过收购SchedMD,英伟达旨在掌控Slurm的演进方向、支持能力和企业级整合权,避免其Base Command Manager和Mission Control体系存在无法掌控的“底座” [14] - 英伟达在2024年10月停止单独销售Bright Cluster Manager,仅将其作为AI Enterprise Stack的一部分提供,正在将所有系统组件打包成不可分割的整体 [17] 英伟达构建的“生态城墙”三层体系 - 第一层是**对集群资源的调度权**:通过Mellanox的网络互联技术、Bright Computing的集群管理、SchedMD的工作负载调度,控制了算力连接、分配、排队执行的完整链条 [18] - 第二层是**对工作负载执行路径的定义权**:通过Run.ai的GPU虚拟化、Mission Control的自动化部署与健康检查、Slurm的作业调度,共同定义了任务如何运行及资源分配 [18] - 第三层是**对企业级支持与系统复杂度的掌控权**:通过AI Enterprise许可证模式,将工具打包成商业服务,客户购买的是整套“系统集成能力”,开源代码可fork但企业级支持与优化经验掌握在英伟达手中 [19] - 这三层体系叠加后,使得客户即使理论上可选择其他硬件,实践中的迁移成本也高得难以承受,英伟达的商业模式已从卖芯片转变为卖生态,GPU成为生态入口 [19] - 英伟达通过近年对Groq、Bright Computing、Run.ai和SchedMD的布局,系统性地收回了AI计算体系中的“非硬件控制权”,构建了一座用迁移成本、学习曲线和生态粘性定义高度的“生态城墙” [20]
英伟达,筑起新高墙
半导体行业观察· 2026-01-13 09:34
文章核心观点 - 英伟达通过一系列战略性交易(如与Groq达成协议、收购Bright Computing、Run.ai和SchedMD),系统性地构建了超越硬件(GPU)的生态壁垒,其战略重心正从统治训练算力转向掌控推理效率和整个AI计算系统的非硬件控制权,旨在通过整合集群调度、工作负载定义和企业级支持服务,大幅提高客户的迁移成本,从而巩固其市场主导地位 [1][2][4][7][23][24] AI芯片竞争格局与英伟达的战略焦虑 - AI芯片竞争焦点正从“训练为王”转向“推理决胜”,在推理端,AMD、定制ASIC及云厂商自研芯片正快速逼近,成本和供应链多元化成为客户现实诉求 [2] - 英伟达的焦虑源于AI产业重心从堆算力(FLOPS)转向高效、确定性地交付推理结果,其统治性的GPU在推理端的话语权可能被系统层逐渐侵蚀 [4][7] - 英伟达采取“收购式招聘”等操作,在不触碰监管红线的前提下,将潜在威胁(如Groq)纳入自身体系 [1] Groq的技术价值与英伟达的交易动机 - Groq的核心技术是自研的LPU架构,采用静态调度和确定性设计,使用SRAM而非HBM,主打极致低延迟和性能确定性,其创始人Jonathan Ross是谷歌第一代TPU的首席架构师 [5] - 2024年,Groq展示其系统运行Llama 2-70B模型时,生成速度超过每秒300个Token,远超主流GPU系统,吸引了金融、军事等对延迟敏感的垂直行业用户 [6] - 英伟达与Groq的交易并非为了补一块芯片,而是为了获取对执行路径的强约束、对延迟的可预测性以及编译器主导的算力使用方式等系统能力 [7] - 此次交易几乎具备收购的全部要素:技术被许可,团队被吸纳,关键人物离场,Groq最具决定性的资产已转移 [1] 英伟达构建集群控制体系的战略步骤 - **收购Bright Computing**:2022年1月,英伟达收购了集群管理工具Bright Computing(后更名为Base Command Manager),将其纳入AI Enterprise软件堆栈,按每个GPU每年4500美元的费用出售“系统能力”,把集群管理变为商业资产 [10][11] - **收购Run.ai**:2024年,英伟达收购Run.ai,其核心价值在于实现GPU资源的抽象化管理(多租户、弹性调度、GPU虚拟化),防止云厂商通过调度层稀释CUDA生态优势 [13] - **收购SchedMD**:2025年12月,英伟达收购了Slurm工作负载管理器背后的核心团队和技术支持公司SchedMD,Slurm在过去十年中约占Top500超级计算机60%的份额,是HPC和AI领域的事实标准 [17][18] - **整合与打包**:2024年10月,英伟达停止单独销售Bright Cluster Manager,仅将其作为AI Enterprise Stack的一部分提供,旨在将所有系统组件打包成不可分割的整体 [21] 英伟达构建的“生态城墙”三层结构 - **第一层:集群资源调度权**:通过Mellanox的网络互联、Bright Computing的集群管理、SchedMD的工作负载调度,控制算力连接、分配和执行的完整链条 [23] - **第二层:工作负载执行路径定义权**:通过Run.ai的GPU虚拟化、Mission Control的自动化部署和健康检查、Slurm的作业调度,共同定义任务如何运行,使迁移成本高企 [23] - **第三层:企业级支持与系统复杂度掌控权**:通过AI Enterprise许可证模式,将工具打包成“系统集成能力”商业服务,客户购买的是英伟达的优化经验与最佳实践 [24] - 这三层叠加使得客户理论上可选择其他硬件,但实践中迁移成本难以承受,英伟达的商业模式已从卖芯片质变为卖生态,GPU成为生态入口 [23][24]