Grace Blackwell芯片
搜索文档
英伟达Blackwell芯片部署挑战,何解
半导体行业观察· 2026-02-08 11:29
Blackwell芯片部署的挑战与现状 - 英伟达首席执行官黄仁勋曾指出,新一代Blackwell AI芯片的复杂性导致客户从上一代芯片过渡将“充满挑战”,因为服务器机箱、系统架构、硬件配置和电源系统等所有方面都需要调整[2] - 对于OpenAI、Meta Platforms及其云服务合作伙伴等核心客户,推广Blackwell服务器(尤其是Grace Blackwell型号)的部署和大规模运维在去年大部分时间里是一个棘手问题,客户在收到上一代芯片后几周内即可部署,而Blackwell的部署则困难得多[2] - 英伟达目前已基本解决了阻碍主要客户快速大规模部署Blackwell芯片的技术难题,公司市值高达4.24万亿美元,业务未受严重影响[2] 部署困难带来的潜在影响与客户反应 - 如果未来新芯片持续面临类似部署难题,可能为谷歌等竞争对手创造机会,前提是竞争对手能帮助客户更快大规模部署芯片以支持尖端AI发展[3] - 部署问题可能导致无法实现大规模芯片部署的云服务提供商利润下滑,并减缓依赖这些芯片开发更先进AI模型的AI公司的研发进度[3] - OpenAI和Meta等客户无法按预期规模构建芯片集群,限制了其训练更大规模AI模型的能力,部分客户已私下向英伟达表达不满[3] - 为弥补客户损失,英伟达去年针对与Grace Blackwell芯片相关的问题提供了一些退款和折扣[3] 技术问题的根源与英伟达的回应 - 主要问题出在连接72颗Grace Blackwell芯片的服务器上,这种设计旨在提升芯片间通信速度并在单个系统内协同运行,但带来了复杂性[4] - 英伟达发言人表示,公司已于2024年解决了Grace Blackwell系统部署缓慢的问题,并称这些系统是“有史以来最先进的计算机”,需要“与客户进行联合工程开发”才能部署[4] - OpenAI基础设施负责人表示,与英伟达的合作“完全按计划进行”,正在利用所有可用的英伟达芯片进行模型训练和推理,这加速了研发迭代和产品发布[4] 英伟达的改进措施与产品迭代 - 英伟达从部署挑战中吸取教训,不仅优化了现有Grace Blackwell系统,还改进了基于即将发布的下一代Vera Rubin芯片的服务器[5] - 英伟达去年推出了性能更强大、稳定性超越第一代产品的Grace Blackwell芯片升级版(GB300),在散热、核心材料和连接器质量方面均有所改进[5] - Meta工程师发现新芯片显著降低了集群组装难度,包括OpenAI在内的一些客户已调整订单,转而订购升级后的产品[5] - 英伟达告诉投资者,其Blackwell系列芯片的大部分收入现在来自优化的Grace Blackwell服务器,并计划今年大量交付这些服务器[5] Blackwell芯片的设计目标与固有缺陷 - 英伟达开发Blackwell芯片的目标是帮助客户以远超以往AI芯片的规模和成本效益训练AI模型[7] - Blackwell系列的核心设计是将72颗Grace Blackwell芯片集成到一台服务器中,减少了不同服务器间的数据传输,释放了数据中心网络资源,并支持更大规模AI模型的训练[7] - 然而,高度集成大量芯片意味着单个芯片的故障可能引发连锁反应,导致由数千个芯片组成的整个集群崩溃或停滞,从最近的已保存节点重新启动中断的训练可能花费数千至数百万美元[7] 初期推出问题与客户应对 - 2024年夏季,芯片设计缺陷导致量产延迟并引发各种问题,在首批Blackwell芯片交付后,服务器机架频繁出现过热和连接故障[7] - 这迫使微软、亚马逊网络服务、谷歌和Meta等核心客户减少订单,转而选择上一代芯片[8] - 几家云服务提供商的员工认为,英伟达在相关硬件和软件尚未完全调整和准备就绪之前就向客户交付了芯片[8] - 但有前英伟达高管为这一策略辩护,称72芯片服务器所经历的成长阵痛表明公司愿意突破技术界限,而非采取保守管理方式[8] 部署延迟对云服务商的财务影响 - 去年芯片部署延迟导致OpenAI的部分云服务合作伙伴遭受损失,他们曾斥巨资购买Grace Blackwell芯片,希望快速上线收回成本,但云服务商只有在客户开始使用芯片后才能获得收入[9] - 为缓解资金压力,一些云服务提供商去年与英伟达达成了折扣协议,允许他们根据实际使用量以较低价格购买芯片[9] - 英伟达还向一些退回服务器的客户退还了款项[9] - 在截至去年8月的三个月里,Oracle在出租Blackwell系列芯片方面亏损了近1亿美元,主要原因是调试服务器并将其交付给客户所需时间远远落后于客户开始使用并支付租金的时间[9] - 一份为Oracle云业务高管准备的内部演示文稿指出,租用Grace Blackwell芯片的毛利率为负,主要是由于OpenAI位于德克萨斯州阿比林的数据中心的芯片部署问题以及客户验收周期滞后[10]
最烦做演讲,黄仁勋曝英伟达养了61个CEO、从不炒犯错员工:CEO是最脆弱群体
36氪· 2026-01-19 18:43
文章核心观点 - 英伟达联合创始人兼首席执行官黄仁勋在访谈中分享了其个人领导哲学、公司文化、对人工智能未来的展望以及个人成长经历,核心观点包括:英伟达的成功源于其独特的企业品格、长期坚持的技术愿景以及“没有终极目标”的发展理念,而非生产规模 [1][60][61] - 黄仁勋预测,未来五年AI将彻底改变计算模式,提升社会生产效率,并改变所有工作岗位的性质,但不会导致大规模失业 [2][38][43] - 黄仁勋将自己描述为一个“不情愿的CEO”,并认为CEO是公司里最脆弱的一群人,其成功依赖于团队和外部帮助 [1][49][52][53] 公司战略与愿景 - 公司自1993年创立以来,长期致力于重塑计算行业,其早期战略观点在CPU为主流的时代颇具争议 [4] - 公司的发展路径是“走了整整33年才看到成果”,其成功不仅在于技术发明(如GPU和CUDA),更在于将技术转化为产品、制定市场策略并培育生态系统的全链条能力 [5][6] - 公司曾推行“CUDA无处不在”的战略,创始人长期向高校、企业推广CUDA技术,坚信其将改变世界 [7] - 公司没有终极目标,“活下去”就是计划,这种“没有终极目标”的理念对其发展起到了至关重要的作用 [60][61] 领导力与公司文化 - 公司内部有近60位直接下属,每位都具备担任世界级CEO的潜力,从某种意义上说,公司有61位“CEO” [1][18] - 公司打造了一个安全的环境,过去包括创始人在内的很多人都犯过严重错误,但从未有人因此被解雇,形成了包容、宽恕并从错误中学习的文化 [1][25] - 创始人的用人哲学是“宁让职位空着,也不能让不合适的人占着位置”,并愿意为等待合适人选而让职位空缺很久 [20][21][22] - 创始人认为公司的成功秘诀在于独特的企业文化和企业品格、团队在逆境中的凝聚力,而非产量或单个人的能力 [23][24] - 创始人将自己定位为公司的一名员工,必须每天努力以对得起工作,并认为CEO需要向董事会负责,职位本身很脆弱 [15][52] 技术发展与行业展望 - 创始人断言,未来五年,英伟达及整个行业在AI领域的投入将彻底改变计算机运作模式,从“由人类编程”进化为“在人类引导下自主学习编程” [2][38] - 未来的计算机将能够处理比现在大十亿倍的问题规模,这将重塑所有科学领域并解决许多当前难题 [38][39] - AI将极大提升企业生产效率,供应链管理将更顺畅,浪费基本消失,公司利润更丰厚,社会财富增长 [40] - 创始人提出“英伟达定律”,称公司发展速度比过去的摩尔定律快了整整一千倍 [10] - 无监督学习(自监督学习)技术的突破是深度学习规模效应彻底释放、公司驶入发展快车道的关键 [8][9] 对就业与社会的影响 - 未来100%的工作岗位都会发生变化,但不会有50%的岗位消失,趋势是大家会比现在更忙碌 [2][43] - AI将帮助那些有天赋但不懂技术的人跨越技术鸿沟,例如通过“氛围编程”让任何人成为软件程序员,并创造经济机会 [43] - 那些现在没有工作的人,很可能会因为AI获得谋生的手段 [2][43] - AI将缓解劳动力短缺问题,帮助控制通货膨胀,并有望推动GDP增长 [43] 创始人个人见解与经历 - 创始人自称在很多方面是一个“不情愿的CEO”,不喜欢公开演讲和抛头露面,但为了公司会全力以赴去做 [1][49] - 公开演讲让其感到恐惧和焦虑,尤其是公司内部会议演讲,这与外界认为其享受演讲的印象相反 [55][56] - 创始人的自信源于对底层原则的坚信、持续的逻辑推演和复盘,而非道听途说 [13][14] - 童年经历塑造了其性格,包括母亲用词典教英语让其学到“有坚定意志就能做事”,以及9岁时在肯塔基州上学途中面对欺凌的“痛苦与磨砺” [28][29][30] - 创始人认为“无知”是一种超能力和福气,正是当年的“无知”和乐观让其敢于创立英伟达,如果早知道困难就不会去做 [58][59][60] - 创始人认为真正的“聪明”是兼具技术洞察力与人文同理心、能预见和规避风险的能力,而非单纯的智商或解题能力 [54]
最烦做演讲!黄仁勋曝英伟达养了61个CEO、从不炒犯错员工:CEO是最脆弱群体
AI前线· 2026-01-19 16:28
公司核心战略与成功之道 - 公司成功并非依靠产量取胜,其虽然是GPU的发明者,但却是全球产量最小的GPU制造商,许多不知名厂商的产量更高[32][33] - 公司具备从技术发明、产品创新、市场策略制定到生态构建与市场培育的全链条能力,并已多次成功实践[8][9] - 公司没有设定终极目标,“活下去”就是其计划,这种“没有终极目标”的理念对其发展起到了至关重要的作用[76][74] - 公司长期坚持“CUDA无处不在”的战略,创始人曾不遗余力地向高校、初创及成熟企业推广CUDA技术,沉浸在对未来的长期构想中[10] 公司管理与文化 - 公司拥有独特的管理架构,创始人拥有近60位直接下属,他们中的每一位都具备担任世界级CEO的能力,从某种意义上说公司有61位“CEO”[27] - 公司打造了安全的环境,过去包括创始人在内的许多人都犯过严重错误,但从未有人因此被解雇,形成了包容、宽恕及从错误中学习的文化[34][35] - 公司的核心竞争力在于其独特的企业文化和品格,以及团队在逆境中凝聚的力量,这支撑其完成了如Grace Blackwell芯片等前所未有的复杂项目[33] - 创始人的用人哲学是“宁让职位空着,也不能让不合适的人占着位置”,愿意为等待合适人选而让职位长期空缺,并看重团队成员间的“化学反应”[30][31][32] 创始人的领导哲学与个人特质 - 创始人自认为是一个“不情愿的CEO”,不喜欢公开演讲和抛头露面,但为了公司会全力以赴去做必要的事[62] - 创始人认为CEO是公司里最脆弱的一群人,其无法单打独斗,需要经常寻求他人的帮助与善意,承认这种脆弱对他而言并不困难[65][66] - 创始人的自信源于对底层原则的坚信和不断推演,其从1993年起就坚信公司的发展方向,并通过持续复盘和预判来调整行动[20][21] - 创始人将“无知”视为一种超能力,认为正是当年对创业艰难的无知,才使得创立英伟达这家本不可能的公司成为可能[72][73][74] 技术愿景与行业展望 - 预计未来五年,AI领域的投入将彻底改变计算机的运作模式,计算机将从“由人类编程”进化为“在人类引导下自主学习编程”[49] - 未来的计算机将能够处理比现在规模大十亿倍的问题,这将重塑所有科学领域,使曾经棘手的难题变得容易解决[50][51] - AI将提升全社会的生产效率,企业利润将更丰厚,社会财富将增长,趋势不会是就业岗位减少,而是100%的工作岗位会发生变化,但不会有50%的岗位消失,人们会比现在更忙碌[51][52][54] - AI将填平技术鸿沟,例如通过“氛围编程”让任何人都有可能成为软件开发者,帮助那些有天赋但不懂技术的人融入全球经济[54] 公司发展历程与反思 - 公司自1993年创立起就立志重塑计算行业,但其观点在很长一段时间内不被看好,这条路走了整整33年才看到成果[7][8] - 公司的发展速度被创始人称为“英伟达定律”,比过去的摩尔定律快了一千倍,未来十年将是波澜壮阔的十年[13] - 公司很早就预见到深度学习技术的巨大扩展潜力,并全力押注,同时意识到无监督学习(自监督学习)的突破将是关键拐点[11][12] - 创始人认为,将一件事物的速度提升一千倍、规模扩大一千倍或体积缩小一千倍,都会引发质变,带来超乎想象的结果[11]
英伟达 CEO 黄仁勋:要在欧洲盖20座 AI 工厂 量子运算走到转折点
经济日报· 2025-06-12 07:36
英伟达欧洲AI基建计划 - 公司计划在欧洲新建20座AI工厂,并打造全球首个"工业AI云",该云将配备1万颗GPU [1] - 欧洲AI运算能力预计在两年内提升至当前水平的十倍 [1] - 公司与法国新创Mistral AI合作,其Mistral Compute服务将采用1.8万颗Grace Blackwell芯片 [1] 量子运算技术发展 - 量子运算技术已到转捩点,预计几年后能解决复杂问题 [1] - 量子电脑优势在于平行运算能力远超传统序列运算 [1] - 相关企业股价受此消息提振,Quantum Computing上涨12.5%,台积电ADR涨1.3%,英伟达微涨0.1% [1]
英伟达(NVDA.US)加码欧洲AI布局 携手法国Mistral拓展版图
智通财经网· 2025-06-11 20:11
欧洲AI基础设施扩张计划 - 公司宣布加强欧洲AI基础设施项目 包括扩大与法国初创公司Mistral AI的合作 [1] - 计划在欧洲建设20多家"人工智能工厂" 其中几家将是容纳超过10万块芯片的"超级工厂" [2] - 目标将欧洲AI计算能力提高10倍 预计明年欧洲AI硬件产能增长三倍 [2] 合作伙伴与市场拓展 - 与法国Mistral合作开发Mistral Compute服务 使用1.8万块新Grace Blackwell芯片 [1] - 英国Nebius Group和Nscale Global将在平台使用"数千块"此类半导体 [1] - 与欧洲150万开发人员 9600家企业和7000家初创公司合作 [2] - AWS Mistral等公司将加入Lepton服务 帮助AI开发者连接计算硬件 [3] 技术应用与产品部署 - 提供软件和服务加速基于当地语言和数据的AI模型部署 [3] - Drive平台已应用于梅赛德斯-奔驰CLA车型 即将用于沃尔沃和捷豹新车型 [3] 欧洲市场现状与挑战 - 欧洲在AI基础设施开发方面落后于美国 未达到其他地区支出水平 [2] - 基础设施匮乏阻碍英国增长 尽管具备专业知识和初创企业优势 [2] - 与欧洲各地云计算和电信公司合作解决基础设施不足问题 [2]
人工智能实验室Mistral:我们的计算机设备将采用18,000块英伟达(NVDA.O)的Grace Blackwell芯片。
快讯· 2025-06-11 18:53
人工智能实验室Mistral - 公司计划采用18,000块英伟达Grace Blackwell芯片构建计算机设备 [1] 英伟达(NVDA.O) - 公司Grace Blackwell芯片获得人工智能实验室Mistral的大规模采购订单,数量达18,000块 [1]
英伟达GPU,在这个市场吃瘪
半导体行业观察· 2025-05-21 09:37
英伟达在电信行业的战略调整 - 英伟达从高端AI芯片转向低端市场,推出ARC-Compact服务器,针对分布式RAN(D-RAN)场景,而非集中式RAN(C-RAN)[1] - ARC-Compact采用Grace CPU和L4 Tensor Core GPU,性能较弱,适合边缘视频处理和推理,但不适合大型语言模型训练[2] - 公司将其定位为"经济高效、节能"的选择,适用于低延迟AI工作负载和RAN加速[2] 主要RAN供应商的态度 - 爱立信、诺基亚和三星是潜在采用英伟达技术的三大RAN供应商,但均未表现出对CUDA架构的强烈兴趣[4] - 爱立信和三星倾向于"lookaside"虚拟RAN模式,主要将软件保留在CPU上,仅使用硬件加速器进行前向纠错(FEC)[4] - 诺基亚采用"inline"模式,但当前使用Marvell Technology的加速器而非英伟达产品[5] 技术迁移与行业趋势 - 爱立信已实现在Grace CPU上运行为英特尔x86编写的软件,仅需极小改动[5] - 三星认为随着CPU技术进步,可能不再需要内联加速器[5] - 诺基亚表示除非电信运营商广泛采用GPU进行AI推理,否则不会大规模重写代码[6] 边缘计算与AI处理前景 - 电信公司对在基站提供AI推理服务持怀疑态度,Omdia调查显示仅17%受访者认为AI处理将在基站进行[8] - 43%受访者认为AI处理将主要在终端用户设备进行[8] - 行业分析师指出超大规模运营商对边缘计算的兴趣减弱,商业模式回报有限[9] 硬件发展趋势 - Grace CPU的出现为虚拟RAN提供了除英特尔外的替代选择[9] - 行业趋势可能从GPU转向更强大的CPU,同时AI模型规模正在缩小[10] - 英伟达CEO黄仁勋曾表示CPU无法跟上ASIC的工作负载[9]