文章核心观点 - 生成式AI驱动的算力竞赛正导致数据中心能耗急剧上升,电力约束已成为比芯片性能更紧迫的产业瓶颈,并正在重塑数据中心的发展逻辑 [1][2] - AI芯片设计与实际应用场景脱节、算力需求爆炸式增长、以及数据中心配套设施(尤其是冷却系统)的高能耗,共同构成了当前的“电力黑洞”困境 [2][3][4] - 提升能源利用效率、发展高效冷却技术(特别是液冷)以及利用中国制造业的全链条优势,是应对电力约束、实现数据中心绿色低碳发展的关键路径 [4][5][10][13] AI数据中心电力消耗的核心瓶颈 - 芯片与场景脱节:AI芯片研发陷入“拼峰值算力”误区,其高密度并行计算架构与大模型训练中常见的“稀疏计算”不匹配,导致大量“无效耗电”;同时,芯片应对多模态任务的灵活性不足,任务切换效率低且额外耗电 [2] - 算力需求爆炸式增长:算力需求增长周期已缩短至每3-4个月翻一倍,远超摩尔定律节奏;2024年中国智能算力增速高达74.1%;维持大模型运行需庞大算力支撑,例如DeepSeek-R1日活超2200万,需约50个大型数据中心支持 [3] - 配套设施能耗高企:数据中心冷却系统是能耗主要组成部分,占总耗电量38%以上,有的甚至高达50%;2025年中国数据中心平均电能利用效率(PUE)约为1.45,与世界先进水平(约1.1-1.2)有差距,其中制冷系统能耗占27% [4] 算力扩张带来的具体能耗压力 - 集群规模巨大:“十万卡集群”成为科技巨头竞争新标的,OpenAI/Microsoft、xAI、Meta等企业竞相构建超10万张GPU的算力集群 [3] - 单芯片能耗惊人:以英伟达H100 GPU为例,峰值功耗700瓦,按全年61%使用时长计算,单颗年耗电量达3740度;规模扩大至10万颗,仅GPU年耗电量将突破3.74亿度 [3] - 整体电力消耗巨大:2024年中国数据中心总耗电量达1660亿度,相当于2个三峡水电站年发电量,约占全国总耗电量1.68%;预计2030年占比超5%,2035年占比超13% [1] 政策要求与技术发展重点 - 政策目标:根据国家发改委计划,到2025年底,国家枢纽节点新建数据中心绿电占比需超过80% [4] - 四项重点技术:绿电直连技术、高效冷却技术、IT负载动态调整技术、算-电-热协同技术成为发展重点 [4] - 液冷技术是关键:在单机柜功率密度超过25kW的高密度场景下,行业正加速转向液冷等高效冷却方案 [5] 液冷技术方案与市场现状 - 三种主流方案: - 冷板式液冷:精准对准CPU、GPU等发热核心散热,能效高、改造成本相对可控,是目前最普及的方案 [5][6] - 浸没式液冷:将服务器完全浸入绝缘冷却液,散热效率极高,是超高热密度场景的“终极解决方案”,但普及率不及冷板式 [5][6] - 喷淋式液冷:直接向发热元件喷淋冷却液,适配特定场景需求,但商用情况暂不明朗 [5][6][7] - 普及率与组合方案:液冷技术在数据中心普及率目前大约只有10%;“冷板+液冷循环”的组合方案是当前技术布局重点,例如英伟达Vera Rubin NVL72与AMD MI450均采用此架构 [7] 主要厂商的液冷技术布局 - 国际芯片巨头: - 英伟达:为Ada Lovelace架构GPU量身设计冷板,确保与芯片核心发热区域接触面积达95%以上 [8] - AMD:针对MI450芯片封装结构优化冷板压力分布,提升冷却液流速与换热效率 [8] - 英特尔:主要采用冷板式液冷方案,在CPU、GPU上安装带微通道的金属冷板,兼容现有数据中心架构 [8] - 国内领先企业: - 曙光数创:2021年至2023年上半年,在中国液冷基础设施市场份额位居第一,占比达56%;其方案已应用于字节跳动等头部厂商 [8] - 英维克:作为全链条液冷开创者,提供从冷板到机柜的全栈产品;截至2025年3月,其液冷链条累计交付达1.2GW [9] - 飞荣达:自主研发的3DVC散热器功耗可达1400W,处于行业领先;已成为英伟达、中兴、浪潮等企业的核心供应商,液冷模组已批量交付 [9] - 中石科技:在热模组核心零部件和TIM材料上实现批量供应,VC模组在高速光模块中加速落地,并推进液冷模组客户导入 [9] - 思泉新材:具备液冷散热模组规模生产能力,正开展750W-3000W液冷技术研发 [9] - 川环科技:液冷服务器管路产品通过美国UL认证,并进入奇鋐、英维克、飞荣达等厂商供应名单 [9] 中国制造业的体系优势 - 规模全球领先:中国制造业增加值自2010年起居世界首位;截至2024年,制造业规模已连续15年居世界首位 [10][11] - 体量优势显著:2024年数据显示,中国制造业规模大于美国、日本、德国和印度制造业规模总和,相当于两个美国 [12] - 赋能产业变革:中国制造业的全链条优势,有助于推动液冷等技术从细分赛道走向规模化普及,实现散热效率与成本的平衡 [10][13]
数据中心的下一个胜负手:跳出AI芯片