Workflow
百度百舸AI异构计算平台4.0
icon
搜索文档
百度智能云成功点亮昆仑芯三代万卡集群:国内首个正式点亮的自研万卡集群
IPO早知道· 2025-02-05 22:02
百度智能云万卡集群突破 - 百度智能云成功点亮国内首个自研万卡集群 并计划进一步扩展至3万卡规模[4] - 万卡集群显著提升算力 可将千亿参数模型训练周期大幅缩短 支持AI原生应用快速迭代[4] - 集群支持多任务并发能力 通过动态资源切分实现多个轻量化模型同时训练 训练成本呈指数级下降[5] 技术优势与创新 - 百舸AI异构计算平台4.0突破硬件扩展性瓶颈 解决卡间互联拓扑限制和通信带宽问题[5] - 采用创新散热方案解决万卡集群能效问题 相比常规方案功耗达十兆瓦级别[5] - 分布式训练优化使主流开源模型集群MFU提升至58% 有效训练率达到98%[5] - 构建十万卡级HPN高性能网络 实现几十公里跨地域通信 带宽有效性超90%[5] 资源管理与效率提升 - 百舸平台实现多芯资源池统一管理 自动选择性价比最高芯片 多芯混合训练效能达95%[5] - 通过模型优化和动态资源分配 实现训练/微调/推理任务混合部署 提升集群综合利用率[5] - BCCL通信库将故障恢复时间从小时级降至分钟级 大幅提高集群可靠性[5] 行业影响 - 该突破推动行业从"单任务算力消耗"向"集群效能最大化"转型[5] - 解决多芯混训和故障率激增等行业难题 为国产大模型发展提供关键基础设施支持[5] - 该技术可支撑Sora类应用开发 满足多模态数据和复杂任务需求[5]