Workflow
软硬件协同设计
icon
搜索文档
CoDesign 2025国际研讨会在大阪召开 共探高性能计算与AI融合新路径
财经网· 2025-07-18 12:22
行业趋势 - 高性能计算行业正面临计算架构异构化与AI/ML工作负载兴起的双重挑战,软硬件协同设计成为关键发展方向 [2] - 人工智能已成为高性能计算发展的核心驱动力,模型规模增长导致算力需求呈指数级上升,能源消耗成为主要瓶颈 [2] - 行业呈现十大发展趋势,包括解决系统碎片化、优化数据流动方式、构建以数据为中心的计算系统等 [3] 技术突破 - Together AI推出自研"AI加速云"平台,其推理引擎和优化策略表现优异,目标构建全球级AI计算基础设施 [3] - 瑞士CSCS开发的云原生超算平台ALPS支持弹性资源调度,采用"科学即服务"模式支撑大型科研项目 [3] - Hermes系统通过优化数据流动方式突破"内存墙"性能瓶颈,提出未来计算系统需"以数据为中心"的理论模型 [3] 发展方向 - 未来百亿亿次计算(Zeta Scale)需解决系统工程命题,系统功耗和可靠性是规模扩展的核心障碍 [4] - HPC与AI结合存在技术路线分歧:通用架构与更高集成度的CPU-GPU耦合架构成为主要讨论方向 [4] - 专家指出Transformer架构并非AI for Science的通用解决方案,需探索多样化技术路径 [4] 研究重点 - 会议聚焦四大核心方向:算法、应用系统、系统软件与中间件、软硬件协同架构设计 [2] - 设置五大热点研究主题,包括算法与计算模型、系统与体系结构设计等关键技术领域 [2] - 异构系统架构中的"集成"问题被特别强调,国际合作被视为应对算力挑战的重要途径 [2]
首次披露!DeepSeek V3 发布软硬一体协同训练论文,公开「降成本」秘诀
雷峰网· 2025-05-15 18:13
DeepSeek-V3 成本效益与架构创新 - 核心观点:通过软硬件协同设计实现大型模型的高效训练与推理,仅需2048个NVIDIA H800 GPU即达到最先进性能 [4] - 采用DeepSeek-MoE与多头潜在注意力(MLA)架构,FP8混合精度训练使内存消耗降低50% [7][8] - MLA通过压缩KV缓存至潜在向量减少内存占用,共享KV、滑动窗口缓存等技术进一步优化存储 [10][11][12] 低精度与计算优化 - 首创FP8训练框架,通信量较BF16减少50%,提出硬件改进建议如提升累加精度至FP32 [16][17][18] - MoE架构使计算成本降至250 GFLOPS/令牌,显著低于密集模型的2448 GFLOPS [13] - 多标记预测(MTP)框架提升推理速度1.8倍,令牌接受率达80%-90% [14] 互联驱动设计 - 针对H800 NVLink带宽限制(400GB/s),采用8张400G Infiniband网卡增强扩展能力 [20][23] - 节点内NVLink(160GB/s)与节点间IB(40GB/s)带宽差异促生节点受限路由策略,减少跨节点流量 [24][26][27] - 提出未来硬件需统一网络适配器、专用通信协处理器以优化资源利用 [29][30] 大规模网络架构 - 部署八平面胖树网络(MPFT),支持16384 GPU理论规模,成本较三层胖树降低41% [32][34][40] - MPFT实现流量隔离与低延迟,专家并行带宽超40GB/s,训练效率与单平面网络持平 [37][44][47] - InfiniBand延迟(2.8μs)优于RoCE(3.6μs),但建议RoCE优化如自适应路由与拥塞控制 [50][51][53] 未来硬件方向 - 需解决互联故障、静默数据损坏等问题,建议校验和验证与诊断工具预装 [59][60][61] - 提出CPU-GPU直连、共封装光学、动态带宽分配等创新方向 [61][64][66] - 内存架构推荐DRAM堆叠加速器与晶圆级集成技术以突破带宽瓶颈 [72]