智算集群
搜索文档
智算集群迎来吉瓦级时代
中国电力报· 2026-02-05 10:48
核心观点 - 人工智能产业正经历爆发式增长,但算力军备竞赛已进入比拼“算电协同”的新阶段,能源成为制约规模提升的关键瓶颈 [1] - 模型即服务成为大模型工程化落地的“必备项”,行业焦点转向提升单位算力下的推理性能与降低生成成本 [3] - 人工智能应用正加速向高附加值领域渗透,并在工业、服务业等多行业形成差异化应用格局,赋能前景广阔 [4] - 尽管产业规模快速增长,但技术“落地难、落地浅”仍是主要瓶颈,需围绕场景、技术、业务、数据四大核心因企制宜 [5] - 全球人工智能投融资热度持续攀升,但中美在投融资规模上存在量级差距 [2] 算力与能源发展 - 超大规模智算集群持续升级,即将迎来吉瓦级时代,能源日益成为制约规模提升的关键瓶颈 [1] - 未来3年全球顶尖集群功率或将快速增长,远超2019年以来每年2倍的水平 [2] - 亚马逊、谷歌、微软、英伟达等科技巨头纷纷加强核聚变、地热、电站建设等电力领域投资,尝试电力私有化部署 [2] 投融资趋势 - 全球人工智能投融资占全行业投融资比例从2023年的8.1%上升至2024年的13.5%,并在2025年二季度跃升至23% [2] - 2025年上半年,美国人工智能投融资金额为381亿美元,我国投融资金额仅为36.7亿美元,存在量级差距 [2] 模型即服务与商业化 - 模型即服务推动大模型从“实验室原型”向“产业级工具”转化,已从“可选项”升级为“必备项” [3] - 阿里云、百度智能云、华为云为代表的国内主流大模型厂商纷纷加大MaaS布局 [3] - 行业焦点在于通过资源调度与架构优化,提升单位算力下的模型推理性能,降低单位Token的生成成本和能源消耗 [3] 产业应用与渗透 - 人工智能应用加快向高附加值领域环节渗透,覆盖第一、第二、第三产业 [4] - 在工业领域,电子信息、消费品、以汽车为代表的装备制造等行业在整体应用中占据重要份额 [4] - 大模型成为全环节赋能重要支撑,后端运营管理环节占比最高且小幅上升,对企业价值提升进一步增强 [4] - 例如,煤炭科学研究总院研发的矿山知行平台,可实现数据、决策、运营“三化一体”协同发展,推动调度从辅助决策向自主决策升级 [4] 产业规模与落地挑战 - 2024年我国人工智能核心产业规模已突破9000亿元,同比增长24%,2025年有望达1.2万亿元 [5] - 截至2025年底,我国人工智能企业数量超6000家,形成覆盖基础底座、模型框架、行业应用的完整产业体系 [5] - 人工智能技术“落地难”“落地浅”仍是瓶颈,落地应重点围绕“场景筛选—技术适配—业务融合—数据支撑”四大核心展开 [5] - 以国家电网为例,其“光明电力大模型”覆盖600余个电力业务场景,故障处置与服务保障能力增强30% [5][6] 全球发展与治理 - 2025年全球人工智能发展鸿沟显现,亟须国际公共产品助力全球普惠共赢 [6] - 应制定人工智能ESG评估国际指南,建立涵盖算法伦理、数据隐私、能源消耗等维度的评估指标体系 [6]
农尚环境(300536.SZ)子公司签订1.32亿元智算集群项目建设及服务合同
智通财经网· 2025-12-29 20:01
公司重大合同公告 - 公司全资子公司大连芯联微电子有限公司被确定为异新智造(湖北)电子信息科技有限公司训推一体智算集群项目的成交供应商 [1] - 双方已签署《智算集群项目建设及服务合同》 [1] - 合同总价款为1.32亿元(含税) [1] 合同具体内容 - 大连芯联微将为异新公司提供算力集群硬软件一体化建设及服务方案 [1] - 服务方案包含由计算机服务器、高性能计算模块、硬件售后服务等要素组成的硬件设备资源 [1] - 服务方案还包含软件平台及技术服务 [1]
超节点互连技术落地 国产万卡超集群首次真机亮相
21世纪经济报道· 2025-12-19 21:32
行业趋势:算力需求与架构演进 - 主流大模型参数已从千亿级跃升至万亿级规模,驱动算力需求持续爆发式增长,EFLOPS算力级别、万卡级别高性能集群成为大模型标配 [2] - 为满足苛刻的算力要求,行业正从追求通用性和灵活性的解耦设计,转向通过牺牲部分通用性以换取性能极致优化的新架构 [3] - 构建大规模智算集群的主流架构思路是:先通过Scale-up策略将数百张加速卡集成为内部高速互联的超节点,再将这些超节点作为标准单元进行Scale-out横向扩展,最终构筑万卡规模集群 [6] - 行业目标持续升级,从千卡、万卡集群向未来的几十万卡甚至百万卡集群迈进,高速互连的重要性愈加凸显 [7] 产品创新:超节点与万卡集群 - 超节点因密度和性能优势,正成为新建万卡集群的首选架构之一,其将大量AI加速卡以超高密度集成在单个或少数几个机柜内,通过内部高速总线或专用互连网络,实现“物理多机、逻辑单机”的新型计算单元 [3] - 中科曙光于2025年11月发布全球首个单机柜级640卡超节点——scaleX640,这是全球已公开的在单个机柜内集成加速卡数量最多的超节点产品 [3] - scaleX640采用超高密度刀片、浸没相变液冷等技术,将单机柜算力密度提升20倍,PUE值低至1.04 [1] - 中科曙光于2025年12月18日发布并展出了scaleX万卡超集群,由16个scaleX640超节点通过scaleFabric高速网络互连而成,实现10240块AI加速卡部署,总算力规模超5EFlops,这是国产万卡级AI集群系统首次以真机形式亮相 [4][5] - 华为昇腾384超节点真机也在2025年世界人工智能大会期间首秀,标志着国产算力“大基建”正从图纸走进现实 [1] 技术突破:高速互连与网络 - 在单机柜内把芯片互连规模做大,可以让芯片之间的互连更加可靠、高效,因为柜内互联采用高效低成本的电信号,而柜间则依赖高功耗、高成本的光模块 [3] - 在超节点间,曙光scaleFabric网络基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,可实现400Gb/s超高带宽、低于1微秒端侧通信延迟,并可将超集群规模扩展至10万卡以上 [7] - 相比传统IB网络,scaleFabric网络性能提升2.33倍,同时网络总体成本降低30% [7] - 自研原生RDMA高速网络至关重要,其角色类似于英伟达生态中基于Mellanox技术的InfiniBand网络,承担着节点间Scale-Out的重任 [7] 挑战与产业链影响 - 超节点面临海量芯片协同工作带来的系统散热压力、多芯片间光/铜混合互连方案引发的稳定性问题,以及多零部件长期运行下的可靠性隐患等复杂系统性挑战 [8] - 解决上述问题需要服务器厂商与上游各环节厂商深度协同,探索全局最优解决方案,这使得整机环节在产业链中的话语权显著提升 [8] - 当智算集群规模扩展至万卡乃至十万卡级别,集群设计与建设面临可扩展性、可靠性与能效三大核心挑战 [8] - 为保证可扩展性,必须构建具备高带宽、低延迟的强大互连网络,确保集群规模增长时计算效率不会出现断崖式下降,并实现大规模组网下的有效管理 [8] - 可靠性方面,海量设备数量累加会遵循“木桶效应”,即便单点可靠性极高,整体系统的无故障运行时间也会被指数级拉低 [8] - 最紧迫的是能耗与能效问题,随着单个算力中心体量从MW级向未来GW级演进,传统的供电技术已难以为继,必须实现供电技术的根本性突破,并辅以先进的软件管理调度 [8]
中兴通讯(000063.SZ):已推出单机支持64张GPU的超节点服务器
格隆汇· 2025-11-13 17:53
公司产品与技术进展 - 公司已推出单机支持64张GPU的超节点服务器 [1] - 该服务器支持Scale-Up与Scale-Out双重扩展模式 [1] - 产品具备业界领先的集成度与扩展能力 [1] - 该技术可打造软硬协同、以网强算、开放解耦、高效高稳的智算集群 [1] - 集群规模可达万卡乃至十万卡级别 [1]