国产AI算力池
搜索文档
全国最大国产AI算力池来了:部署超3万卡,上千款应用接入
量子位· 2026-02-06 18:10
国内智算基础设施发展里程碑 - 国内智算基础设施正跨过一个关键的分水岭,由中科曙光提供的3套scaleX万卡超集群在国家超算互联网核心节点同时上线试运行[2] - 这标志着全国首个实现3万卡部署且实际投入运营的最大国产AI算力池正式形成[3] - 此举意味着国产超集群跨过了单点突破阶段,正式步入规模化落地的工程成熟期[5] 产业释放的核心信号 - 信号一:国产万卡超集群开始进入规模化落地阶段[9] - 信号二:系统创新正在取代“单点算力参数”,成为竞争主战场[9] - 信号三:万卡超集群已实现从“做出来”向“让真实业务跑起来”的跨越[9] 万卡时代的核心竞争能力 - 能落地、稳得住,才是万卡时代的“入场券”,难点已从“做出一套系统”转向能否实现规模化复制和落地[6] - 规模化落地是系统工程能力的集中较量,周期可控、性能可复现、故障可定位、成本可核算等硬核能力是长期玩家的入场券[7][8] - 竞争正从“总卡数、总算力”转向“系统级协同”,即网络、存储、散热、供配电、调度与运维的联动优化,这是将大规模算力转化为稳定产能的关键[8] 系统级创新的具体体现 - 以scaleX万卡超集群为例,其scaleFabric网络能实现万卡超集群400Gb/s超高带宽、低于1微秒端侧通信延迟,并具备面向十万卡、百万卡演进的扩展能力[10] - 通过高密设计、低PUE导向的工程方案及智能调度等系统能力,确保集群“稳得住、用得好”[11] - 在规模化落地阶段,效率、稳定性、可维护性及TCO(总成本)成为衡量系统级创新成效的关键[12] 规模化应用是终极胜负手 - 万卡超集群真正的胜负手在于规模化应用,即能否将算力实实在在地转化为真实业务的生产力[14] - 过去部分万卡项目存在“样子工程”现象,停留在展示和跑分,缺少持续业务负载的实际检验[15] - 未来的赢家必须能让万卡集群在业务一线持续“出力”,并能将这种复杂的工程能力大规模地铺向全行业[28] 规模化应用的三层要素 - **第一层:开放兼容性**:开放兼容决定应用门槛与广度,能带来更低的适配门槛、更快的上手速度和更可控的改造成本[17][18]。曙光scaleX超集群基于AI计算开放架构,全面兼容CUDA等主流软件生态,支持多品牌国产加速卡混合部署[19] - **第二层:公共基础设施属性**:万卡超集群正从技术设施转变为公共基础设施,成为制造、能源、交通、科研、教育、医疗、金融等千行百业的算力“水煤电”[20] - **第三层:承载真实业务负载**:真正的“分水岭”在于能否扛住千行百业实打实的业务负载[21]。scaleX万卡超集群已完成400余个主流大模型与世界模型的适配优化,并依托国家超算互联网实现上千款应用对接运行[21] 在实战应用中的价值体现 - **在大模型训练场景**:主打“稳”字,能稳稳托住万亿参数级模型的整机训练,并提供容错与快速恢复能力,保障超长周期训练稳定连续[23][24] - **在高通量推理场景**:强调“实”字,通过软硬协同与端到端联合优化,将推理能力沉淀为可长期承载核心业务的服务化能力,已服务于多家头部互联网用户的核心智能化业务[25] - **在AI for Science场景**:突出“快”字,将算力直接变现为科研效率,例如支撑材料研发大模型刷新全球评测纪录,或将蛋白质研究效率提升百万倍(3-6个数量级)[26]