高性能计算(HPC)与大模型发展 - 高性能计算是大模型训练的核心基础设施 没有高性能计算就没有大模型[2] - HPC技术在大模型时代扮演降本增效的关键角色 通过软硬协同优化可显著提升训练效率[3][4] - 中国HPC发展经历了三个阶段 从自研计算机到采购工作站再到自研处理器构建超算[4] 清华高性能计算研究所 - 清华高性能所是中国HPC研究的先驱 率先采用工作站集群方案打破美日垄断[4] - 研究方向从硬件转向软件优化 在计算/存储/通信三大领域积累深厚经验[5] - 培养了大量顶尖人才 包括华为海思首席科学家/网易有道CEO等产业界精英[16] 存储技术创新 - 郑纬民团队突破大规模SAN存储技术 将产品价格大幅降低[13] - 提出云存储概念并开发国内首个云计算平台"清华云"[13] - 陆游游团队开发的SuperFS文件系统夺得IO500全球存储榜首[63] 大模型训练优化 - 开发"八卦炉"训练系统 支持174万亿参数MoE模型在国产超算上运行[37] - 推出全球首个开源MoE训练框架FastMoE 训练效率提升显著[41] - SmartMoE系统采用动态并行策略 进一步优化稀疏模型训练[42] 推理系统创新 - Mooncake系统实现KVCache共享 节省GPU算力消耗[55] - KTransformers系统实现CPU/GPU协同推理 降低显存需求[57] - "赤兔"推理引擎支持国产芯片 性能优于主流开源方案[44] 国产芯片生态建设 - 清程极智专注国产芯片编译优化 支持华为/沐曦等十余家厂商[86] - 开发九源智能基础软件栈 实现跨硬件平台适配[96] - 目标是用国产芯片训练国际一流大模型 突破算力瓶颈[85] 新兴计算方向 - 张悠慧研究类脑计算 提出类脑计算完备性理论[74] - 开发通用类脑编译器 解决软件碎片化问题[77] - 汪东升团队发现多个处理器安全漏洞 推动硬件安全防御[81]
高性能计算群星闪耀时