Workflow
万卡集群
icon
搜索文档
瞄准英伟达,国产算力产业走向“闭环”
36氪· 2026-01-09 20:39
文章核心观点 国产算力产业在资本市场表现活跃,多家核心公司成功上市或推进IPO,标志着产业进入快速发展与资本化新阶段[1] 同时,行业竞争焦点已从硬件参数比拼转向大规模集群的稳定性、软件生态的易用性及商业落地的性价比[3] 通过硬件互连技术的突破、存储芯片的自主化、计算架构的开放解耦以及软件生态的积极构建,国产算力产业已初步形成从底层硬件到上层应用的生态闭环,具备了应对外部挑战和把握市场机会的能力[17] 资本市场动态与公司进展 - **天数智芯**于2026年1月8日在港股上市,公开发售获超400倍认购,显示资本市场热情高涨[1] - **摩尔线程**于2025年12月5日登陆科创板,上市首日股价一度上涨468.78%,总市值突破3055亿元[1] - **沐曦股份**于2025年12月17日登陆科创板,上市首日涨幅达692.95%,市值站上3300亿元[1] - **长鑫科技**于2025年12月30日递交科创板招股书,披露2025年前三季度营收达320.84亿元,2022至2024年主营业务收入复合增长率超70%[1][6] - **长存集团**于2025年9月25日完成股份制改革,估值达1600亿元,刷新半导体独角兽纪录[1] 硬件竞争焦点:万卡集群与互连技术 - 行业竞争新标尺转向“万卡集群”的稳定性、软件生态易用性及商业落地性价比[3] - **中科曙光**发布scaleX万卡超集群,由16个scaleX640超节点互连,实际部署10240块AI加速卡[3] - 万卡集群面临指数级增长的故障概率挑战,系统可靠性面临严峻考验[3] - 集群核心突破在于采用国产首款400G原生RDMA网络,以解决高速数据传输瓶颈,其规格指标和实测稳定性已可对标英伟达当前量产产品[4][5] - 未来技术挑战在于物理极限,铜缆传输距离随速率提升急剧缩短,行业需向硅光技术发展以突破极限[5] 存储芯片自主化进展 - **长鑫科技**作为中国最大DRAM设计制造一体化企业,产品线覆盖DDR4到DDR5、LPDDR5X,其首款国产DDR5产品速率达8000Mbps[6] - **长存集团**在NAND Flash领域凭借Xtacking架构实现技术突围[7] - DRAM及衍生的HBM是决定GPU性能上限的核心要素,NAND Flash则是底层存储基础[6][7] - 2025年下半年以来,全球存储颗粒(DRAM/NAND)供应压力巨大,国产化尚无法完全解决全球性供需失衡,导致云厂商采购策略前置[13] 计算架构开放与生态协作 - 行业共识从“全产业链通吃”转向“分层解耦、各司其职”[9] - **海光信息**开放其HSL高速互连总线协议,实现了海光CPU与各家GPU的异构互联,拉通了CPU与GPU[8] - **光合组织**秘书长指出,大规模算力系统已非单一品牌独角戏,协议的打通是关键[7] - 这种技术解耦与开放架构,旨在构建更开放的生态,避免厂商各自为战导致的生态割裂与用户适配成本高企[11] 软件生态构建与迁移策略 - 在英伟达CUDA生态主导下,开发者切换至国产平台面临巨大代码重构与学习成本[10] - **摩尔线程**策略是从个人开发者抓起,发布“MTT AIBOOK”AI算力本实现开箱即用,并推出代码生成大模型MUSACode,声称CUDA到MUSA代码自动化迁移可编译率达93%[10] - 在企业级市场,云服务商承担“屏蔽差异”职责[11] - **优刻得**作为云服务商,向下适配3到5家主流的国产芯片,通过虚拟化和统一调度屏蔽底层硬件割裂,统一管理异构算力[11][12] - **紫光计算机**看到本地化价值,推出带前置可插拔硬盘仓的AI工作站,以应对网络延迟、隐私风险及海量数据交换效率问题[12] 应用落地、客户选择与市场风向 - **中国科学院高能物理研究所**已开始采用国产算力设施进行AI训练和科学计算,评价其性能“完全够用”,并与芯片厂商进行联合调试优化[14] - 国内互联网大厂态度变化,从直接采购国际主流芯片转向希望拥有更多话语权和接受更开放的架构[14] - **海光信息**推出定制化产品,允许大厂将特殊需求写入芯片,以建立深层绑定[14] - 行业认为2026年是Agent(智能体)元年,其对算力的消耗是指数级增长,算力依然短缺,问题在于供需错配而非总量过剩[15] - **DeepSeek**等国产大模型的爆发反向定义硬件标准,如采用FP8量化策略,促使芯片厂商优化底层计算库以支持特定计算格式[15][16] 产业链闭环与应对挑战的能力 - 面对美国可能放宽英伟达H200芯片出口限制的传闻,行业强调国内政企客户对供应链安全有刚性考量[17] - 国产算力产业链已形成闭环:从**长鑫科技**、**长存集团**的存储底座,到**中科曙光**、**海光信息**的计算与网络集群,再到**摩尔线程**、**天数智芯**适配的终端应用[17] - 过去几年,中国算力产业已初步形成紧密咬合的生态闭环,具备了进一步直面挑战的能力[17]
瞄准英伟达!国产算力产业走向“闭环”
经济观察报· 2026-01-09 18:28
资本市场热潮与国产算力产业进步 - 国产算力产业在资本市场运作提速,天数智芯在港交所上市,公开发售获超400倍认购 [2] - 国产GPU头部企业摩尔线程和沐曦股份登陆科创板,上市首日股价分别一度上涨468.78%和692.95%,市值分别突破3055亿元和3300亿元 [2] - 国产存储芯片厂商长鑫科技递交科创板招股书,披露2025年前三季度营收达320.84亿元,2022至2024年主营业务收入复合增长率超70% [2] - 长江存储完成股份制改革,估值达1600亿元,刷新半导体独角兽纪录 [3] - 从芯片设计到存储颗粒,从科创板到港交所的资本热潮间接宣告了国产算力产业的快速进步 [1][4] 硬件竞争焦点转移与“万卡集群”挑战 - 国产算力竞争焦点从比拼硬件参数,转向“万卡集群”的稳定性、软件生态易用性及商业落地性价比 [6] - “万卡集群”意味着指数级增长的故障概率,中科曙光发布的scaleX万卡超集群部署了10240块AI加速卡 [6] - 专家指出,当系统规模达到十万张卡时,平均一小时要出一次错,只要一张卡出错,整个系统就得停下来 [6] - 硬件厂商在“连接”上寻求突破,中科曙光集群采用国产首款400G原生RDMA网络,以解决大规模协同计算对高信号质量、低延迟、大带宽网络的需求 [7] - 英伟达通过GPU、NVLink和InfiniBand网络构成“三驾马车”产品体系,节点间高速互连网络是决定AI集群效率的关键瓶颈 [8] - 未来需采用硅光技术以突破铜缆在高速率下传输距离急剧缩短的物理极限 [8] 存储与计算协同及产业分工 - 在解决“连得上”问题后,需解决“存得下”问题,长鑫科技和长江存储分别卡位DRAM和NAND Flash两大核心存储领域 [9] - 长鑫科技产品线覆盖DDR4到DDR5、LPDDR5X,其首款国产DDR5产品速率达8000Mbps,DDR5承担AI集群数据预处理,其衍生的HBM是决定GPU性能上限的核心要素 [9][10] - 长江存储凭借Xtacking架构在3D NAND领域实现技术突围 [10] - 产业逻辑转向分层解耦、各司其职,海光信息开放其HSL高速互连总线协议,实现了海光CPU与各家GPU的异构互联,技术解耦折射出商业逻辑的妥协与成熟 [11] 软件生态构建与迁移挑战 - 软件生态迁移是比硬件建设更复杂的系统工程,开发者从英伟达CUDA生态切换至国产平台面临巨大代码重构与学习成本 [13] - 摩尔线程发布“MTT AIBOOK”AI算力本预置全栈开发工具,并推出代码生成大模型MUSACode,声称可实现从CUDA代码到MUSA代码的自动化迁移,可编译率达93% [13] - 在企业级市场,云服务商承担“屏蔽差异”职责,优刻得向下适配3到5家主流的国产芯片,通过虚拟化和统一调度,让上层应用感知不到底层硬件差异 [15] - 行业存在生态割裂、互不兼容的问题,构建开放的生态架构已成为行业生存的必选项 [15] - 紫光计算机看到“本地化”价值,推出带有前置可插拔硬盘仓的AI工作站,以应对云端AI的网络延时、隐私风险及海量数据交换效率问题 [16] 供应链波动与产业新变量 - 2025年下半年以来,全球存储颗粒(DRAM/NAND)供应压力巨大,国产化尚无法完全解决全球性供需失衡 [17] - 为应对缺货,云厂商改变采购策略,从按季度规划拉长到按半年规划,并前置采购计划 [17] - 2026年被认为是Agent(智能体)元年,其对算力的消耗是指数级增长,从供需关系看,算力依然短缺,行业面临的是供需错配而非总量过剩 [20] - DeepSeek等国产大模型的爆发反向定义硬件竞争标准,如其采用FP8量化策略,要求芯片厂商优化底层计算库以支持特定计算格式 [21] 应用落地、客户选择与产业闭环形成 - 检验国产算力成色的最终标准是客户选择,中国科学院高能物理研究所已采用国产算力设施进行AI训练和科学计算,评价其性能“完全够用” [19] - 合作模式发生变化,科学家深入参与芯片调优过程,通过联合调试加速软硬件适配 [19] - 国内互联网大厂态度变化,希望拥有更多话语权,接受更开放的架构,海光信息推出定制化产品以迎合需求,建立深层客户绑定 [19][20] - 面对美国可能放宽英伟达H200芯片出口限制的潜在变量,行业认为国内政企客户对供应链安全有刚性考量,且国产算力产业链已形成闭环 [21] - 从长鑫科技、长江存储的存储底座,到中科曙光、海光信息的计算与网络集群,再到摩尔线程、天数智芯适配的终端应用,国产芯片产业已形成一个完整、庞大的产业链条,初步形成生态闭环 [21][22]
国产算力产业走向“闭环”
经济观察网· 2026-01-09 16:41
资本市场表现与产业进展 - 国产GPU厂商在2025年末至2026年初密集登陆资本市场,天数智芯港股上市获超400倍认购,摩尔线程与沐曦股份科创板上市首日股价分别一度上涨468.78%和692.95%,市值分别突破3055亿元和3300亿元 [1] - 国产存储芯片厂商完成关键资本运作,长鑫科技于2025年12月30日递交科创板招股书,披露2025年前三季度营收达320.84亿元,2022至2024年主营业务收入复合增长率超70% [1][7] - 长江存储于2025年9月25日完成股份制改革,估值达1600亿元,刷新半导体独角兽纪录 [2] 硬件集群的挑战与突破 - 国产算力竞争焦点转向“万卡集群”的稳定性、软件生态易用性与商业落地性价比 [3] - 大规模集群面临可靠性挑战,十万卡系统平均一小时出错一次,单点故障可导致整个系统停机 [3][4] - 硬件厂商在高速互连网络技术上取得突破,中科曙光发布采用国产首款400G原生RDMA网络的scaleX万卡超集群,其规格指标与实测稳定性已可对标英伟达当前量产产品 [5][6] - 未来技术挑战在于物理极限,铜缆在高速率下传输距离急剧缩短,业界判断未来需依赖硅光技术实现芯片直接出光 [6][7] 存储与计算产业链协同 - 长鑫科技与长江存储分别卡位DRAM和NAND Flash两大核心存储领域,为算力提供存储底座 [7] - 长鑫科技产品线覆盖DDR4至DDR5、LPDDR5X,其首款国产DDR5产品速率达8000Mbps,HBM(高带宽内存)是决定GPU性能上限的核心要素 [7][8] - 长江存储凭借Xtacking架构在3D NAND领域实现技术突围 [8] - 产业链走向分层解耦与开放合作,海光信息开放其HSL高速互连总线协议,实现了海光CPU与各家国产GPU的异构互联 [9][10] 软件生态构建与迁移 - 在英伟达CUDA生态主导下,国产计算平台面临巨大的开发者迁移与代码重构成本 [11] - 摩尔线程通过发布预置全栈开发工具的“MTT AIBOOK”AI算力本及代码生成大模型MUSACode(声称CUDA到MUSA代码自动化迁移可编译率达93%)来降低个人开发者门槛 [11] - 在企业级市场,云服务商(如优刻得)通过虚拟化与统一调度来屏蔽底层不同品牌国产加速卡的生态割裂与不兼容问题,为拥有多类型国产算力硬件的客户提供统一管理方案 [12][13] - 终端侧出现“本地化”创新,紫光计算机推出带前置可插拔硬盘仓的AI工作站,以应对云端AI的网络延迟与隐私风险,提升海量数据交换效率 [13][14] 应用落地、供应链与未来展望 - 国产算力已在科研等高要求场景得到应用,中国科学院高能物理研究所采用海光CPU与DCU进行AI训练和科学计算,评价其性能与国外产品差距不大且完全够用 [15] - 国内互联网大厂态度转变,从采购国际主流芯片转向寻求更开放的架构与更多话语权,海光信息通过提供定制化芯片产品来迎合此需求并建立深度绑定 [15][16] - 上游存储颗粒(DRAM/NAND)供应在2025年下半年以来压力巨大,全球性供需失衡对2026年产业构成挑战,云厂商已拉长采购规划周期以应对缺货 [14] - 国产大模型(如DeepSeek采用FP8量化策略)正在反向定义硬件竞争标准,推动芯片厂商优化底层计算库以支持特定计算格式 [16][17] - 行业认为算力需求依然短缺,当前问题是供需错配而非总量过剩,Agent(智能体)应用的兴起预计将带来指数级增长的算力消耗 [16] - 尽管面临外部潜在变量(如美国可能放宽英伟达H200芯片出口限制),但国内政企客户对供应链安全有刚性考量,且国产算力产业链已从存储、计算、网络到终端应用形成初步生态闭环,具备直面挑战的能力 [17]
国产算力迈入“万卡”时代:摩尔线程发布新一代GPU架构,中科曙光发布万卡超集群
经济观察网· 2025-12-20 14:47
行业竞争焦点转移 - 国产算力产业链竞争焦点已从比拼单卡参数转向构建能稳定运行的万卡级系统[2] - 当模型参数量突破万亿,算力提升依赖规模堆叠,核心问题是如何让上万张计算卡协同工作[2] 摩尔线程新产品发布 - 摩尔线程发布最新全功能GPU架构“花港”,新架构算力密度提升50%,效能提升10倍[3] - “花港”架构支持从FP4到FP64的全精度计算,并新增对MTFP6、MTFP4及混合低精度的支持[3] - 基于新架构规划两款芯片:“华山”定位AI训推一体,专攻大规模智算;“庐山”专注高性能图形渲染,其AI计算性能较前代提升64倍,光线追踪性能提升50%[4] - 公司坚持“全功能GPU”技术路线,同时覆盖图形渲染与人工智能计算两个市场[5] 中科曙光万卡集群系统 - 中科曙光发布“scaleX”万卡超集群系统,这是国产万卡级算力集群首次以真机形式公开亮相[6] - 系统由16个scaleX640超节点通过scaleFabric高速网络互连,总计可部署10240块AI加速卡[10] - 系统采用浸没相变液冷技术,单机柜算力密度相比业界提升20倍,PUE值降至1.04[12] 解决通信与散热挑战 - 构建万卡集群需解决散热、供电与物理空间限制等多重物理与工程难题[7][8] - 高功率算力芯片集中部署会产生惊人热量和电力消耗[9] - 摩尔线程在“花港”架构中集成新一代异步编程模型,并通过自研MTLink互联技术宣称支持十万卡以上规模集群扩展[12] - 中科曙光发布scaleFabric网络,基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,实现400Gb/s带宽与低于1微秒的端侧通信延迟[12] 大模型推理能力验证 - 随着DeepSeek等国产大模型参数量达671B级别,在国产硬件上跑通这些模型成为硬件厂商的试金石[13] - 摩尔线程展示与硅基流动合作的测试数据:在DeepSeek R1 671B全量模型上,其MTT S5000单卡Prefill吞吐量突破4000 tokens/s,Decode吞吐量突破1000 tokens/s[13] 软件生态与系统兼容性 - 摩尔线程宣布其MUSA统一架构升级至5.0版本,核心计算库muDNN在GEMM与FlashAttention上的效率超过98%[13] - 硬件规格逼近国际主流后,国产厂商研发重心正向软件栈优化转移[13] - 中科曙光scaleX万卡超集群支持多品牌加速卡,并已完成400余个主流大模型的适配优化,采用开放架构策略[14]
超节点互连技术落地 国产万卡超集群首次真机亮相
21世纪经济报道· 2025-12-19 21:32
行业趋势:算力需求与架构演进 - 主流大模型参数已从千亿级跃升至万亿级规模,驱动算力需求持续爆发式增长,EFLOPS算力级别、万卡级别高性能集群成为大模型标配 [2] - 为满足苛刻的算力要求,行业正从追求通用性和灵活性的解耦设计,转向通过牺牲部分通用性以换取性能极致优化的新架构 [3] - 构建大规模智算集群的主流架构思路是:先通过Scale-up策略将数百张加速卡集成为内部高速互联的超节点,再将这些超节点作为标准单元进行Scale-out横向扩展,最终构筑万卡规模集群 [6] - 行业目标持续升级,从千卡、万卡集群向未来的几十万卡甚至百万卡集群迈进,高速互连的重要性愈加凸显 [7] 产品创新:超节点与万卡集群 - 超节点因密度和性能优势,正成为新建万卡集群的首选架构之一,其将大量AI加速卡以超高密度集成在单个或少数几个机柜内,通过内部高速总线或专用互连网络,实现“物理多机、逻辑单机”的新型计算单元 [3] - 中科曙光于2025年11月发布全球首个单机柜级640卡超节点——scaleX640,这是全球已公开的在单个机柜内集成加速卡数量最多的超节点产品 [3] - scaleX640采用超高密度刀片、浸没相变液冷等技术,将单机柜算力密度提升20倍,PUE值低至1.04 [1] - 中科曙光于2025年12月18日发布并展出了scaleX万卡超集群,由16个scaleX640超节点通过scaleFabric高速网络互连而成,实现10240块AI加速卡部署,总算力规模超5EFlops,这是国产万卡级AI集群系统首次以真机形式亮相 [4][5] - 华为昇腾384超节点真机也在2025年世界人工智能大会期间首秀,标志着国产算力“大基建”正从图纸走进现实 [1] 技术突破:高速互连与网络 - 在单机柜内把芯片互连规模做大,可以让芯片之间的互连更加可靠、高效,因为柜内互联采用高效低成本的电信号,而柜间则依赖高功耗、高成本的光模块 [3] - 在超节点间,曙光scaleFabric网络基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,可实现400Gb/s超高带宽、低于1微秒端侧通信延迟,并可将超集群规模扩展至10万卡以上 [7] - 相比传统IB网络,scaleFabric网络性能提升2.33倍,同时网络总体成本降低30% [7] - 自研原生RDMA高速网络至关重要,其角色类似于英伟达生态中基于Mellanox技术的InfiniBand网络,承担着节点间Scale-Out的重任 [7] 挑战与产业链影响 - 超节点面临海量芯片协同工作带来的系统散热压力、多芯片间光/铜混合互连方案引发的稳定性问题,以及多零部件长期运行下的可靠性隐患等复杂系统性挑战 [8] - 解决上述问题需要服务器厂商与上游各环节厂商深度协同,探索全局最优解决方案,这使得整机环节在产业链中的话语权显著提升 [8] - 当智算集群规模扩展至万卡乃至十万卡级别,集群设计与建设面临可扩展性、可靠性与能效三大核心挑战 [8] - 为保证可扩展性,必须构建具备高带宽、低延迟的强大互连网络,确保集群规模增长时计算效率不会出现断崖式下降,并实现大规模组网下的有效管理 [8] - 可靠性方面,海量设备数量累加会遵循“木桶效应”,即便单点可靠性极高,整体系统的无故障运行时间也会被指数级拉低 [8] - 最紧迫的是能耗与能效问题,随着单个算力中心体量从MW级向未来GW级演进,传统的供电技术已难以为继,必须实现供电技术的根本性突破,并辅以先进的软件管理调度 [8]
超节点互连技术落地,国产万卡超集群首次真机亮相
21世纪经济报道· 2025-12-19 21:24
行业趋势:AI算力需求爆发与集群规模演进 - 主流大模型参数从千亿级跃升至万亿级规模,算力需求持续爆发式增长,EFLOPS算力级别、万卡级别高性能集群成为大模型标配[1] - 超节点因密度和性能优势,正成为新建万卡集群的首选架构之一[1] - 行业构建大规模智算集群的主流架构思路是:先通过Scale-up策略将数百张加速卡集成为超节点,再将这些超节点作为标准单元进行Scale-out横向扩展,最终构筑万卡规模[5] - 集群规模持续扩大,从千卡、万卡发展到未来的几十万甚至百万卡,国际上Meta、微软、OpenAI等AI巨头已陆续宣布或完成10万卡集群建设[6][7] 技术突破:国产万卡级AI集群真机亮相 - 中科曙光在HAIC2025大会上发布并展出了scaleX万卡超集群,这是国产万卡级AI集群系统首次以真机形式亮相[1] - 此前国内万卡集群项目多以分散服务器、技术蓝图或在建工程形式存在,例如三大运营商已投产的万卡集群多为分散部署的标准服务器,物理形态并非一体化单元[1] - 同样在2025年,华为昇腾384超节点真机也在世界人工智能大会期间首秀,标志着国产算力“大基建”正从图纸走进现实[1] 产品核心:scaleX万卡超集群与scaleX640超节点 - scaleX万卡超集群由16个曙光scaleX640超节点通过scaleFabric高速网络互连而成,可实现10240块AI加速卡部署,总算力规模超5EFlops[1][3] - scaleX640是全球首个单机柜级640卡超节点,采用超高密度刀片、浸没相变液冷等技术,将单机柜算力密度提升20倍,PUE值低至1.04[1] - scaleX640是全球已公开的、在单个机柜内集成加速卡数量最多的超节点产品[2] 技术架构:超节点的设计逻辑与优势 - 超节点是一种Scale-up纵向扩展解决方案,将大量AI加速卡以超高密度集成在单个或少数几个机柜内,通过内部高速总线或专用互连网络,实现“物理多机、逻辑单机”的新型计算单元[2] - 当前算法对算力的苛刻要求,迫使业界牺牲部分通用性以换取性能的极致优化,超节点应此需求而生[2] - 在单机柜内把芯片互连规模做大,可以让芯片之间的互连更加可靠、高效,因为柜内互联采用高效低成本的电信号,而柜间依赖高功耗、高成本的光模块[2] - 中科曙光、华为Atlas超节点、英伟达NVL72等产品均已应用超节点架构[2] 关键挑战:大规模集群的系统性难题 - 当智算集群规模扩展至万卡乃至十万卡级别,集群设计与建设面临可扩展性、可靠性与能效三大核心挑战[8] - 可扩展性挑战:必须构建具备高带宽、低延迟的强大互连网络,确保集群规模增长时计算效率不会出现断崖式下降,并实现大规模组网下的有效管理[8] - 可靠性挑战:海量设备数量累加遵循“木桶效应”,即便单点可靠性极高,整体系统的无故障运行时间也会被指数级拉低[8] - 能耗与能效挑战:随着单个算力中心体量从MW级向未来GW级演进,传统供电技术已难以为继,必须实现供电技术的根本性突破,并辅以先进的软件管理调度[8] - 超节点面临复杂的系统性挑战,包括海量芯片协同带来的系统散热压力、光铜混合互连方案引发的稳定性问题、多零部件长期运行下的可靠性隐患,这类问题需要服务器厂商与上游各环节深度协同解决[7] 网络互连:高速互连技术的重要性与突破 - 随着集群规模从千卡、万卡向几十万卡发展,高速互连的重要性愈加凸显[7] - 在超节点间,曙光scaleFabric网络基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,可实现400Gb/s超高带宽、低于1微秒端侧通信延迟,并可将超集群规模扩展至10万卡以上[7] - scaleFabric网络相比传统IB网络性能提升2.33倍,同时网络总体成本降低30%[7] - 自研原生RDMA高速网络至关重要,英伟达生态体系中的“三驾马车”包括:核心GPU提供算力、NVLink负责节点内超高速互联、基于Mellanox技术的InfiniBand网络承担节点间Scale-Out重任[7]
TPU代工视角看谷歌材料
2025-12-01 08:49
行业与公司 * 纪要涉及的行业为人工智能(AI)芯片、数据中心硬件及云计算基础设施 涉及的焦点公司为谷歌(Google)及其供应链 包括代工商、芯片设计伙伴、光模块、PCB、液冷解决方案等供应商[1][2][3][4] * 核心对比公司为英伟达(NVIDIA) 分析两者在技术路线、供应链模式、商业模式及市场竞争方面的差异[10][12][22] 核心观点与论据:谷歌的战略、供应链与生态 **1 谷歌自研芯片进展与代工格局** * 谷歌与联发科联合设计自研芯片 博通专注于训练芯片 谷歌进入推理领域 GPT-8亿芯片预计2026年11月上市 博通和联发科是主要供应商[1][2] * 代工份额动态变化:2020年至2024年为独家代工商 凭借特殊IP帮助谷歌数据中心PUE降低约25%[2] 自2024年1月起 伟创力加入 形成80%对20%的份额分配[3] 2026年起引入红海作为第三家供应商 份额分配变为65%、20%和15%[1][3] * 谷歌2026年计划生产650万颗芯片 2027年计划增长30%至800万颗 但因台积电CoWoS技术限制 2026年实际目标为420万颗 2027年为650万颗[23] 存在供给缺口 正与英特尔洽谈通过EMIB技术补充[21] **2 供应链关键环节供应商变化** * **PCB供应商**:2025年上半年因关税问题最大供应商为依数 下半年切换回沪电 目前沪电占70% 方正占20% TTM占10%[4] * **光模块与线缆**:旭创一直是核心供应商 新易盛份额不到10%[1][4] 谷歌计划从2026年开始在交换部分切换到AOC加LPO组合以降低成本[1][4] 线缆从传统AEC转向AOC 国内长兴博创、海外菲尼特为主要供货方[1][4] * **液冷解决方案**:因英伟达机器漏液问题频发 谷歌选择更严格的新进生态标准 英维克进入北美CST自研生态并获得订单[4][5][6] 红海作为代工商也提供专业液冷解决方案[1][3] **3 技术性能、成本与商业模式对比(谷歌 vs 英伟达)** * **技术性能**:谷歌目前比英伟达落后一代左右 同代机性能约为英伟达的90%至93%[10] 预计到2026年谷歌可能追平2025年的英伟达性能水平[13] * **成本优势**:谷歌10%左右的性能损失使其能够降低整体TCO成本约44% 花费相当于英伟达20%至25%的资金 加上基建及液冷系统 总体投资成本比英伟达低40%至45%[10] * **商业模式**:英伟达作为OEM 定价模型包含较高的销售毛利(一般不低于40%)[14] 谷歌主要通过云化服务获取利润 定价模型倾向于长期订阅服务(如三年期服务是硬件成本的1.7至1.8倍)计入OPEX而非CAPEX[14][15] 谷歌采用直采模式压低成本 而英伟达因维持庞大销售组织及多层次供应链导致制造成本较高[16] **4 数据中心未来发展趋势与谷歌生态计划** * **电源与能源**:谷歌数据中心未来将以HVDC作为二次电源 一次电源以电源板为主[2][8] 为应对北美电价上涨 谷歌与AWS、Meta计划在2027年4月前部署光储二次能源池 阳光电源预计2026年和2027年在美国本土有产出[2][8][9] * **生态开放计划**:谷歌计划从2026年开始通过租赁方式开放其自有生态 逐步向商业化过渡 完善TPU硬件工业设计、定价体系及销售方式 预计2027年正式开始销售硬件并允许大客户自行运行[2][11] * **技术架构优势**:谷歌通过强大的软件机器人功能 将万卡集群(如9,216颗芯片)逻辑上整合成一块主板 实现CPU、ASIC、显存、内存、SSD资源的逻辑通用和虚拟化 形成软硬件一体的全链条生态系统[12][24] 其OCS架构解决横向扩展问题 网络完备性和可持续性优于英伟达[21][24] 其他重要内容 **1 供应链管理与采购模式** * 谷歌采取统一招标方式 通常选择6家供应商(2家主供 4家备选)以确保产能[7] 谷歌不允许客户将部署在英伟达CUDA上的生态迁移到其云平台 只能使用TPU 该策略将在2027年全面实施[12] **2 技术细节与物料规划** * PCB技术路线:高多层技术已达44层以上 未来可能超过50层 HDI(高密度互连)技术预计2026年进行6到9个月试验 若效果良好2027年可能大规模切换 以解决元器件老化散热问题且控制厚度[18] * 盛弘已经预订了2026年的H9产能 且预订至少两年 以确保HDR技术成本下降[19] * 当前V7方案在马8加二代布铜箔搭配下存在性能测试问题 正在调整 未来将在马8基础上升级并考虑使用HDA等新技术[17] **3 市场竞争展望** * 英伟达面临挑战 其产品主要针对单个或少数数据中心集群 而非大规模分布式部署 未来需通过云化来保持竞争力 否则在头部CSP市场份额可能缩小[22] * 竞争对手使用谷歌硬件对谷歌自研芯片发展的影响是动态的 竞争对手需调优软件以匹配谷歌硬件 但也可能反哺其自研芯片开发[25][26]
规模超越英伟达,华为官宣“全球最强超节点+万卡算力新品”
选股宝· 2025-09-19 07:18
华为算力产品发布 - 华为推出全球最强超节点Atlas 950 SuperPoD 算力规模8192卡 预计2024年四季度上市 [1] - 新一代产品Atlas 960 SuperPoD 算力规模15488卡 预计2027年四季度上市 [1] - Atlas 950超节点规模是英伟达NVL144的56.8倍 总算力是其6.7倍 内存容量达1152TB是其15倍 互联带宽达16.3PB/s是其62倍 [1] 昇腾芯片发展规划 - 2026年第一季度推出昇腾950PR 第四季度推出昇腾950DT并搭载自研HBM [1] - 2027年第四季度推出昇腾960芯片 2028年第四季度推出昇腾970芯片 [1] 行业算力集群发展 - 万卡集群被视为大模型竞赛入场券 百度百舸4.0可实现十万卡集群高效管理 [2] - 阿里云支持10万卡量级集群可扩展规模 服务全国一半人工智能大模型企业 [2] - 腾讯星脉高性能计算网络支持超10万卡大规模组网 [2] 国产算力生态展望 - 国产算力超节点有望统一国产算力芯片生态 加速向训练场景突破 [2] - 超节点整机柜方案渗透将推动铜连接 光模块市场规模加速增长 服务器代工单卡价值量显著提升 [2] HBM市场前景 - 2026年HBM市场规模预计达460亿美元 2030年达980亿美元 2024-2030年复合增长率33% [2] 华为合作伙伴动态 - 先进数通展示基于昇腾AI处理器的A800I A2大模型一体机 专为生成式大模型场景设计 [3] - 赛腾股份HBM设备实现批量交付 [4]