中科曙光高级副总裁李斌：算力基础设施的成熟标志是“开放”

行业背景与核心矛盾 - 人工智能产业发展对算力提出苛刻要求，大模型参数量从亿级向万亿级跃升，导致计算量指数级增长[1] - 国内算力产业长期面临结构性矛盾：需求侧急需大规模、稳定算力，供给侧却呈现严重碎片化特征[1] - 各家厂商在硬件设计、软件栈和互连协议上自成体系，导致算力资源难以跨平台调度，用户迁移成本高[2] - 市场需要的是高效、安全、稳定的智能计算基础设施[3] 战略方向与开放架构 - 公司于2025年明确提出“AI计算开放架构”战略，核心逻辑在于分工与协作，旨在建立开放的产业格局，让国产芯片、整机、软件和大模型等产业链上下游企业能够解耦协作[4] - 郑州上线的scaleX万卡超集群是该战略落地的产物，基于开放架构设计，能够支持不同品牌的国产加速卡进行异构部署，并在软件层面兼容CUDA等主流计算生态[4][5] - 开放架构的兼容性降低了开发者使用门槛，让用户拥有更多选择权，不必被单一技术路线绑定[6] 技术突破与工程化落地 - scaleX万卡超集群部署于国家超算互联网核心节点，最大可对外提供超过3万张AI加速卡的算力[1] - 系统工程化落地攻克了软硬件协同优化、高密度集成、高效供电与散热、高速互连扩展、智能运维管理等技术难关[4] - 采用超高密度刀片、浸没相变液冷等技术，将单机柜算力密度提升20倍，同时将PUE值降低至1.04[4] - 通过存、算、传一体化协同设计优化，实现从芯片级、系统级到应用级的三级数据传输协同优化，可将AI加速卡资源利用率提高55%[4] - 该系统已验证国产算力基础设施的工程化能力，行业已从早期单点突破转向集群创新，并实现大规模落地部署[1] 应用场景与效能 - 针对超大规模模型训练，万卡超集群可以支持万亿参数模型的整机训练与容错恢复[7] - 面向高通量推理场景，超集群已服务于多家头部互联网用户的核心智能化业务，并通过联合深度优化持续提升推理效能[7] - 在AI for Science领域，支撑国内某材料研发大模型登顶国际权威榜单，并助力国内顶级科研团队将蛋白质研究效率提升3—6个数量级[7] - 搭配OneScience科学大模型一站式开发平台，超集群能够大幅降低多学科交叉研究的创新门槛[8] - 系统已经实现了超过400个主流大模型和世界模型的适配优化[5] 未来展望与产业生态 - 展望2026年，智能化浪潮将推动计算产业进入新的发展周期[8] - 公司将继续坚持“开放”技术路线，认为只有基于开放架构、统一标准，才能有效联动产业链上下游企业、高校及科研院所，开展协同技术攻关，构建具有国际竞争力的产业生态[8] - 公司将重点关注核心部件、整机系统、软件生态及应用服务的全链条创新，致力于解决异构算力的适配难题，提升算力资源利用效率[8] - 无论是面对万亿参数大模型训练，还是科学计算的复杂场景，公司都将提供成熟、可靠的解决方案[8] - 公司将以务实态度，推动国产智能计算基础设施向着开放、高效、安全的方向演进[9]