行业背景与核心矛盾 - 人工智能产业发展对算力提出苛刻要求,大模型参数量从亿级向万亿级跃升,导致计算量指数级增长[1] - 国内算力产业长期面临结构性矛盾:需求侧急需大规模、稳定算力,供给侧却呈现严重碎片化特征[1] - 各家厂商在硬件设计、软件栈和互连协议上自成体系,导致算力资源难以跨平台调度,用户迁移成本高[2] - 市场需要的是高效、安全、稳定的智能计算基础设施[3] 战略方向与开放架构 - 公司于2025年明确提出“AI计算开放架构”战略,核心逻辑在于分工与协作,旨在建立开放的产业格局,让国产芯片、整机、软件和大模型等产业链上下游企业能够解耦协作[4] - 郑州上线的scaleX万卡超集群是该战略落地的产物,基于开放架构设计,能够支持不同品牌的国产加速卡进行异构部署,并在软件层面兼容CUDA等主流计算生态[4][5] - 开放架构的兼容性降低了开发者使用门槛,让用户拥有更多选择权,不必被单一技术路线绑定[6] 技术突破与工程化落地 - scaleX万卡超集群部署于国家超算互联网核心节点,最大可对外提供超过3万张AI加速卡的算力[1] - 系统工程化落地攻克了软硬件协同优化、高密度集成、高效供电与散热、高速互连扩展、智能运维管理等技术难关[4] - 采用超高密度刀片、浸没相变液冷等技术,将单机柜算力密度提升20倍,同时将PUE值降低至1.04[4] - 通过存、算、传一体化协同设计优化,实现从芯片级、系统级到应用级的三级数据传输协同优化,可将AI加速卡资源利用率提高55%[4] - 该系统已验证国产算力基础设施的工程化能力,行业已从早期单点突破转向集群创新,并实现大规模落地部署[1] 应用场景与效能 - 针对超大规模模型训练,万卡超集群可以支持万亿参数模型的整机训练与容错恢复[7] - 面向高通量推理场景,超集群已服务于多家头部互联网用户的核心智能化业务,并通过联合深度优化持续提升推理效能[7] - 在AI for Science领域,支撑国内某材料研发大模型登顶国际权威榜单,并助力国内顶级科研团队将蛋白质研究效率提升3—6个数量级[7] - 搭配OneScience科学大模型一站式开发平台,超集群能够大幅降低多学科交叉研究的创新门槛[8] - 系统已经实现了超过400个主流大模型和世界模型的适配优化[5] 未来展望与产业生态 - 展望2026年,智能化浪潮将推动计算产业进入新的发展周期[8] - 公司将继续坚持“开放”技术路线,认为只有基于开放架构、统一标准,才能有效联动产业链上下游企业、高校及科研院所,开展协同技术攻关,构建具有国际竞争力的产业生态[8] - 公司将重点关注核心部件、整机系统、软件生态及应用服务的全链条创新,致力于解决异构算力的适配难题,提升算力资源利用效率[8] - 无论是面对万亿参数大模型训练,还是科学计算的复杂场景,公司都将提供成熟、可靠的解决方案[8] - 公司将以务实态度,推动国产智能计算基础设施向着开放、高效、安全的方向演进[9]
中科曙光高级副总裁李斌:算力基础设施的成熟标志是“开放”