Workflow
AI算力集群
icon
搜索文档
OCS光交换机:AI算力集群时代的新蓝海 | 投研报告
中国能源网· 2025-12-08 16:09
核心观点 - AI大模型训练对通信带宽、时延和功耗要求极高,OCS凭借其高带宽、低延迟特性成为理想互联解决方案 [1] - OCS是一种基于全光信号的交换设备,相比传统电交换机,具备低延迟、低功耗、高可靠性优势,且支持跨代设备无缝互联 [1] - OCS主要应用于AI算力集群的三大场景:Scale-Up(单节点性能强化)、Scale-Out(多节点协同)和Scale-Across(跨数据中心互联) [1] - 在谷歌TPU集群中,一个包含4096个TPU v4芯片的集群需配备48台136端口的OCS,TPU与OCS比例约为85:1 [1] - 未来TPU v7集群规模扩大至9216芯片时,因采用更高密度的320端口OCS,仍仅需48台,比例提升至192:1,凸显其扩展效率 [1] 市场规模与增长 - 全球OCS光交换机市场规模将从2020年的0.7亿美元增长至2025年的7.8亿美元,年复合增长率达62% [1][2] - 预计到2031年市场规模将达20.2亿美元,2025–2031年复合增长率约17.2% [1][2] - 目前市场竞争集中,2025年前四大厂商占据约69%份额,谷歌、Coherent等为主要参与者 [1][2] 产业链分析 - OCS产业链分为上游核心器件、中游设备集成与下游应用,技术壁垒高 [2] - 上游核心是MEMS微镜阵列等光器件,代表厂商如赛微电子,是产业链技术壁垒最高的环节,价值量占比高 [2] - 中游由国际厂商主导设备集成,如Lumentum,国内光库科技等参与代工与方案定制 [2] - 下游需求则集中于谷歌等巨头的AI数据中心,驱动其在高性能计算中的规模应用 [2] 相关公司分析 - 英唐智控以电子元器件分销为基础,正向半导体设计与制造逐步拓展 [3] - 公司2025年拟收购桂林光隆集成,强化OCS全制程布局 [3] - 英唐智控子公司英唐微技术已具备MEMS微振镜研发与量产能力,产品覆盖4mm、1mm、1.6mm等多种规格,2025年4mm产品已在工业领域实现批量订单 [3] - 赛微电子为国内MEMS工艺开发与晶圆制造领军者,掌握硅通孔、晶圆键合等核心工艺,客户覆盖激光雷达、AI计算等领域 [3] - 2023年起瑞典Silex(原全资子公司)开始量产MEMS-OCS,2025年北京Fab3启动MEMS-OCS小批量试产 [3] - 公司营收中MEMS业务占比达83%,2024年毛利率提升至35.1% [3] - 随着AI算力需求扩张,赛微电子在MEMS微镜阵列等核心部件的工艺优势有望转化为业绩弹性 [3]
华安证券:OCS光交换机有望迎来高速成长期 建议关注赛微电子(300456.SZ)等
智通财经网· 2025-12-08 15:47
行业概览与市场前景 - AI大模型训练对通信带宽、时延和功耗要求极高,OCS凭借其高带宽、低延迟特性成为理想的互联解决方案 [1] - OCS是一种基于全光信号的交换设备,相比传统电交换机,具备低延迟、低功耗、高可靠性的优势,且支持跨代设备无缝互联 [1] - 全球OCS光交换机市场规模将从2020年的0.7亿美元增长至2025年的7.8亿美元,年复合增长率达62% [1][3] - 预计到2031年市场规模将达20.2亿美元,2025–2031年复合增长率约17.2% [3] - 目前市场竞争集中,2025年前四大厂商占据约69%份额,谷歌、Coherent等为主要参与者 [3] 技术应用与效率 - OCS主要应用于AI算力集群的三大场景:Scale-Up、Scale-Out和Scale-Across [2] - 在谷歌TPU集群中,一个包含4096个TPU v4芯片的集群需配备48台136端口的OCS光交换机,TPU与OCS比例约为85:1 [2] - 未来TPU v7集群规模扩大至9216芯片时,因采用更高密度的320端口OCS,仍仅需48台,比例提升至192:1,凸显其扩展效率 [2] 产业链结构 - OCS产业链分为上游核心器件、中游设备集成与下游应用 [4] - 上游核心是MEMS微镜阵列等光器件,是产业链技术壁垒最高的环节,价值量占比高 [1][4] - 中游由国际厂商主导设备集成,国内光库科技等参与代工与方案定制 [4] - 下游需求则集中于谷歌等巨头的AI数据中心,驱动其在高性能计算中的规模应用 [4] 相关公司分析 - **英唐智控(300131.SZ)**:以电子元器件分销为基础,正向半导体设计与制造逐步拓展 [5] - 公司2025年拟收购桂林光隆集成,强化OCS全制程布局 [5] - 子公司英唐微技术已具备MEMS微振镜研发与量产能力,产品覆盖多种规格,2025年4mm产品已在工业领域实现批量订单 [5] - 公司拟通过整合光隆集成的光开关、OCS系统等技术打造OCS全制程平台 [5] - **赛微电子(300456.SZ)**:为国内MEMS工艺开发与晶圆制造领军者,掌握硅通孔、晶圆键合等核心工艺 [5] - 2023年起瑞典Silex开始量产MEMS-OCS,2025年北京Fab3启动MEMS-OCS小批量试产 [5] - 公司营收中MEMS业务占比达83%,2024年毛利率提升至35.1% [5]
思瑞浦:已有多款高价值模拟芯片应用于光模块中
巨潮资讯· 2025-11-12 01:07
公司业务表现 - 光模块相关业务前三季度实现快速增长 [1] - 多家龙头客户份额稳步提升,新客户进入放量阶段 [1] - 在光模块应用中已有多款高价值模拟芯片实现规模化出货 [1] - 核心客户中相关产品份额持续提升 [1] 产品与技术优势 - 光模块链路中模拟芯片承担信号调理、放大与监测等关键功能,直接影响链路性能与功耗水平 [3] - AFE(模拟前端)产品技术壁垒高、价值量大,集成度与指标要求较高,需在高速率与低噪声之间取得平衡 [1][3] - 随着客户需求升级,产品组合正向更高端规格迁移 [3] - 推进与生态伙伴协同验证,围绕驱动、TIA/AFE、电源与监控等器件开展平台化与模块化设计,提升开发效率与兼容性 [3] - 针对不同封装与工艺路线,持续优化参数窗口与可靠性,以加速新品导入与规模化出货 [3] 市场趋势与产品布局 - 400G产品已进入成熟放量阶段,800G加速渗透,头部客户开始批量导入 [3] - 公司同步布局1.6T相关方案,围绕更高带宽、低功耗与小型化开展器件与工艺迭代 [3] - AI算力集群与数据中心扩容驱动高速光互联需求增长,800G与更高规格的上量带动模拟芯片单机价值量提升 [3] 公司战略与运营 - 公司将结合客户需求扩展高价值产品线,完善在高端光模块中的配套能力 [3] - 通过良率与一致性管理、长期供货与质量体系建设,巩固在核心客户的份额并拓展新客户 [3] 行业前景 - 高速光模块代际升级将重塑器件结构与供应格局 [4] - 具备AFE等高价值器件能力的厂商有望获得更高景气弹性 [4] - 思瑞浦若能把握800G放量与1.6T前瞻布局的节奏,产品结构与盈利能力有望改善 [4]
华丰科技(688629):Q3毛利率承压,等待国产超节点放量
华泰证券· 2025-10-28 11:40
投资评级与核心观点 - 报告对华丰科技维持“增持”评级,目标价为102.34元/股 [1][10] - 核心观点认为公司高速线模组业务正经历“从一到十”的客户拓展进程,尽管3Q25毛利率因产品降价短期承压,但长期看好其在AI算力集群互联需求下的增长潜力 [6][7][10] 财务业绩表现 - 公司9M25实现营收16.6亿元,同比增长121%,归母净利润2.2亿元,同比扭亏为盈 [6] - 单季度看,3Q25营收5.54亿元,同比增长109%,但环比下降21%;归母净利润0.72亿元,环比下降39% [6] - 3Q25综合毛利率为26.60%,同比提升14个百分点,但环比下降9个百分点,主要因高速线模组产品量产后降价 [8] - 费用率显著改善,3Q25销售/管理/研发费用率分别为2.86%/8.70%/7.31%,同比分别下降0.46/4.09/4.63个百分点 [8] 业务进展与战略规划 - 高速线模组业务已与华为、阿里、浪潮、超聚变、曙光、华勤等头部客户展开合作,并获得批量采购订单 [7] - 公司拟通过定增募资3.88亿元,用于扩产112Gbps高速线模组并开发224Gbps等下一代产品,以满足GPU互联需求 [9] - 该业务被视为机柜内部Scale-up互联的优良载体,未来将受益于互联网大厂(如阿里、字节、腾讯)超节点需求的起量 [7][9] 盈利预测与估值分析 - 预测公司2025-2027年归母净利润分别为3.44/7.83/11.49亿元,较前次预测调整-9%/+5%/+11% [10] - 采用SOTP估值法:通讯板块(高速线模组)给予2026年66倍PE,对应市值426.74亿元;其他板块(防务+工业)给予2026年33倍PE,对应市值45.03亿元 [10][20] - 综合目标市值471.77亿元,目标价102.34元/股,对应2026年预测PE 60倍 [10][21]
江海股份(002484):超级电容、铝电解电容有望在AI服务器中广泛应用
国信证券· 2025-09-04 19:38
投资评级 - 优于大市(维持)[1][3][4][6] 核心观点 - AI服务器高压化趋势推动铝电解电容和超级电容需求增长,带动量价齐升[2][3][4] - 公司单季度营收创历史新高,2Q25营收达15.36亿元(YoY +17.02%,QoQ +32.69%)[1] - 上调盈利预测,预计2025-2027年归母净利润为8/11/15亿元(前值8/9/10亿元),同比增速17%/45%/38%[4] 财务表现 - 1H25营收26.94亿元(YoY +13.96%),归母净利润3.58亿元(YoY +3.19%),扣非净利润3.44亿元(YoY +8.96%)[1] - 2Q25归母净利润2.06亿元(YoY -1.92%,QoQ +35.82%),扣非净利润2.07亿元(YoY +10.54%,QoQ +51.01%)[1] - 1H25毛利率24.93%(YoY -0.01pct),净利率13.42%(YoY -1.46pct)[1] - 预计2025年营收53.82亿元(YoY +11.9%),2026年69.77亿元(YoY +29.7%),2027年95.84亿元(YoY +37.4%)[5] 铝电解电容业务 - 1H25营收22.29亿元(YoY +16.70%),毛利率26.75%(YoY +0.19%)[2] - 增长动力来自光伏抢装需求(因上网电价政策调整)及UPS电源、通信电源需求旺盛[2] - MLPC在AI服务器领域批量交货,固液混合电容器在汽车领域持续增长[2] - AI服务器高压化推动牛角型电容用量提升,原子沉积技术升级带动产品单价提高[2] 超级电容业务 - 1H25营收1.62亿元(YoY +48.93%),毛利率16.86%(YoY -3.71%),毛利率下降系开拓新应用领域所致[3] - AI服务器功率波动需超容提供瞬时功率补偿,EDLC和LIC获国内外头部企业认证[3] - EDLC因发热量低、成本优势及产能充裕,有望率先放量[3] - 储能、智能电表、可控核聚变等多领域需求推动市场爆发,公司正推进产能扩张[3] 盈利预测与估值 - 当前股价对应2025-2027年PE为36/26/19倍[4] - 预计2025-2027年每股收益0.90/1.30/1.79元[5] - 2025-2027年ROE预测为12.0%/15.6%/18.9%[5] - 2025-2027年毛利率预测为26%/28%/29%[5]
国信证券-江海股份-002484-超级电容、铝电解电容有望在AI服务器中广泛应用-250904
新浪财经· 2025-09-04 18:53
财务表现 - 1H25公司实现营收26.94亿元,同比增长13.96%,归母净利润3.58亿元,同比增长3.19%,扣非净利润3.44亿元,同比增长8.96% [1] - 2Q25公司营收15.36亿元,同比增长17.02%,环比增长32.69%,归母净利润2.06亿元,同比下滑1.92%,环比增长35.82%,扣非净利润2.07亿元,同比增长10.54%,环比增长51.01% [1] - 1H25公司毛利率为24.93%,同比基本持平,净利率为13.42%,同比下降1.46个百分点 [1] 铝电解电容业务 - 1H25铝电解电容营收22.29亿元,同比增长16.70%,毛利率26.75%,同比提升0.19个百分点 [2] - 增长动力来自光伏领域因上网电价政策转变刺激的抢装需求,以及UPS电源、通信电源等领域需求持续旺盛 [2] - AI服务器高压化推动铝电解电容向更高耐压、更小体积发展,牛角型电容用量预计显著提升,产品单价因原子沉积技术替代化学腐蚀技术而提高 [2] 超级电容业务 - 1H25超级电容营收1.62亿元,同比增长48.93%,毛利率16.86%,同比下降3.71个百分点,主要因开拓新应用领域投入 [3] - AI芯片功耗激增使服务器功率波动加大,超级电容可提供瞬时功率补偿,有望成为AI算力集群标配组件 [3] - 公司EDLC产品因发热量低、成本优势及产能充裕,已获国内外头部企业认证,有望率先规模放量,超级电容市场在AI服务器、储能等多领域需求推动下有望爆发 [3] 产能与市场前景 - 公司超级电容业务已着手推进产能扩张,以应对AI服务器、储能、智能电表及可控核聚变等领域的需求增长 [3] - AI算力集群高压化趋势持续带动铝电解电容和超级电容需求,公司盈利预测上调,预计2025-2027年归母净利润达8/11/15亿元 [3]
交银国际每日晨报-20250829
交银国际· 2025-08-29 09:55
英伟达 (NVDA US) - FY2Q26收入467亿美元 Non-GAAP毛利率72.7% 均超过指引上限 [1] - 管理层指引FY3Q26收入中位数540亿美元 毛利率中位数73.5% 若对华出口条件允许或额外产生20-50亿美元收入 [1] - Blackwell Ultra系统大规模出货 达每星期1000个机柜 Rubin系列6种新芯片已在台积电流片 [1][2] - 调整FY2026/27E收入预测至2070/2691亿美元 Non-GAAP EPS调整至4.44/6.19美元 [2] - 目标价上调至204美元 对应33倍FY27E市盈率 [2] 携程集团 (9961 HK) - 2季度业绩超预期 酒店业务增长好于预期 市占率持续提升 [3] - 内地市场竞争环境中处于有利地位 营销投放效率提升趋势将持续 [3] - 目标价从591港元上调至653港元 基于20倍2026年市盈率 [3] 美团 (3690 HK) - 2Q25总收入同比增长12% 核心商业/新业务分别增8%/23% 调整后净利润同比下降89% [6] - 核心商业调整后运营利润同比降76% 新业务运营亏损同比扩大43% [6] - 预计3季度即时配送日单同比增16% 但收入同比下降6% 亏损或超150亿元 [6] - 新业务预计收入同比增18% 预计亏损约23亿元 [6] - 目标价调整至147港元 基于长期外卖1亿日单及1元UE 15倍市盈率估值 [7] 中国重汽 (3808 HK) - 2025上半年营业收入508.78亿元(同比+4.2%) 归母净利润34.27亿元(同比+4.0%) [8] - 派发中期股息每股0.68元 占上半年归母净利润约55% [8] - 目标价26.45港元 对应2025年市盈率9.9倍 现价对应2025年股息率5.5% [8] 中创新航 (3931 HK) - 1H25收入同比+31.7%至164.2亿元 储能电池收入同比大幅+109.7%至57.6亿元 [9] - 毛利率达17.5% 同/环比+1.9ppts/1.4ppts 净利润同比+80.4%至7.5亿元 净利率4.6% [9] - 下调2025-27年收入预测8%-10%至377.0/453.3/515.2亿元 [10] - 调整净利润预测至17.9/26.5/36.9亿元 维持目标价24.77港元 [10] 信达生物 (1801 HK) - 1H25产品收入同比增长37%至52亿元 授权费收入大幅增至6.7亿元 [11] - 净利润8.3亿元 SG&A费用率下降8.3ppts 研发费用同比下降28% [11] - 管理层指引2027年产品收入超200亿元 商业化品种数量超20款 [11] - 上调2025-27年收入预测2% 上调净利润预测 目标价上调至105港元 [12] 康诺亚 (2162 HK) - 司普奇拜单抗首个完整半年销售额达1.69亿元 鼻科销量已略高于皮肤科 [13] - 商业化团队规模400人 覆盖医院1400家 可院内用药医院超300家 [13] - 青少年AD适应症近期将申报上市 结节性痒疹III期1H26公布结果 [14] - 调整2025-27年财务预测 上调目标价至78港元 [14] 蒙牛乳业 (2319 HK) - 1H25收入同比下滑6.9%至415.7亿元 归母净利润同比下降16.4%至20.46亿元 [15] - 毛利率同比提升1.4个百分点至41.7% 经营利润率同比提升1.5个百分点至8.5% [15] - 管理层下调全年指引 预计收入下滑中-高单位数 经营利润率与去年持平 [16] - 下调2025-27年收入预测8-14% 下调经营利润/归母净利润11-19%/9-27% [16] - 目标价下调至21.51港元 基于2026年15倍预期市盈率 [17] 中国人寿 (2628 HK) - 上半年归母净利润同比增长6.9% 新业务价值可比口径同比增长20.3% [18] - 个险渠道新业务价值同比增长9.5% FVOCI股票占比达到3.5% 较年初提升0.9个百分点 [18][19] - 上调新业务价值预测 基于2025年1.4倍市净率将目标价从19港元上调至30港元 [19] 中国人保财险 (2328 HK) - 上半年净利润同比增长32.3% COR为94.8%同比下降1.4个百分点 [20] - 承保利润同比增长44.6% 总投资收益同比增长26.6% [20] - 预计2025年盈利同比增长28% 2025-2027年ROE有望保持在14%以上 [21] - 基于1.7倍2025年市净率将目标价从17港元上调至24港元 [21] 雅生活服务 (3319 HK) - 1H25总收入同比下跌8.3%至64.7亿元 毛利率同比下滑2.4个百分点至14.5% [22] - 核心利润5.88亿元同比下跌16.9% 在管/合约物业面积同比下降10.4%/7.7% [22] - 调整至中性评级 维持目标价3.2港元 [23] 新奧能源 (2688 HK) - 上半年核心盈利同比轻微下跌1%至32亿元 零售气同比增长1.9% [24] - 泛能业务2季度售能同比下跌9% 下调2025/26年盈利0.1%/1.8% [24] - 目标价调整至73.66港元 基准年移至2026年 估值标准下调至10倍预测市盈率 [24] 全球市场表现 - 恒指24,999点(-0.90%) 年初至今+24.17% 国指8,917点(-1.15%) 年初至今+22.32% [4] - 标普500指数6,502点(+0.32%) 年初至今+10.55% 纳指21,705点(+0.53%) 年初至今+12.40% [4] - 布兰特原油68.07美元(+4.92%) 期金3,404.60美元(+3.37%) 期银38.22美元(+14.81%) [4] - 美国10年债息4.20%(-6.14基点) HIBOR 4.58% [4]
华丰科技(688629):Q2业绩释放,高速线模组“从一到十”
华泰证券· 2025-08-26 11:49
投资评级 - 维持增持评级 目标价88.35元人民币[1][2][6] 核心观点 - 高速线模组业务实现"从一到十"客户扩散 已与华为、浪潮、超聚变、曙光、阿里等厂商展开合作[7][9] - 新能源汽车高压连接器成功进入主流新能源车企供应链并规模上量[7] - 1H25营收11.05亿元同比+128% 归母净利润1.51亿元实现扭亏[6] - 2Q25单季度营收6.99亿元同比+171% 归母净利润1.19亿元[6] - 综合毛利率32.86%同比提升13.66个百分点[8] - 两大核心预期差:高速线模组毛利率高于预期且客户扩散趋势明确[9] 财务表现 - 1H25连接器产品收入3.30亿元同比+40.8% 组件产品收入6.81亿元同比+340.9%[7] - 1H25销售费用率2.24%同比-2.26pct 管理费用率7.31%同比-6.33pct 研发费用率5.88%同比-4.66pct[8] - 研发费用0.65亿元同比+27% 产品向224G迭代升级[8] - 2025E营收预期24.70亿元同比+126.24% 2026E营收44.42亿元同比+79.83%[5] - 2025E归母净利润3.78亿元 2026E归母净利润7.47亿元同比+97.68%[5] 盈利预测调整 - 上调2026年通讯板块归母净利润至6.11亿元(上调114%)[10][19] - 上调2026年防务+工业+其他板块归母净利润至1.36亿元(上调66%)[10] - 上调2025-2027年综合毛利率预期至31.64%/32.93%/32.79%(上调5.18/6.08/5.83pct)[19] - 上调2025-2027年归母净利率至14.92%/16.65%/17.62%(上调5.07/5.32/5.38pct)[20] 估值分析 - 采用SOTP估值法:通讯板块给予2026年60倍PE(可比平均55倍)对应市值366.36亿元[10][21] - 其他板块给予2026年30倍PE(可比平均30倍)对应市值40.93亿元[10][21] - 综合目标市值407.29亿元 对应2026年PE倍数54.52倍[21][22]
世运电路(603920):公司动态研究报告:汽车PCB技术领先,绑定特斯拉成长空间广阔
华鑫证券· 2025-07-31 13:31
报告公司投资评级 - 买入(维持) [2] 报告的核心观点 - 公司业绩表现亮眼,PCB产品量价齐升,未来绑定科技大客户,PCB业务成长空间广阔,维持“买入”评级 [5][12] 各部分内容总结 公司业绩 - 2024年公司实现营业收入50.22亿元,同比增长11.13%;归母净利润6.75亿元,同比增长36.17%;扣非归母净利润6.56亿元,同比增长34.15% [5] - 2025Q1公司实现营业收入12.17亿元,同比增长11.33%;归母净利润1.80亿元,同比增加65.61% [5] - 业绩提升原因系业务量提升、产品结构优化以及单价提升等 [5] Dojo2相关情况 - Dojo2芯片已进入量产倒计时,性能比第一代提升10倍,算力性能直逼英伟达的Blackwell B200芯片 [6] - 性能提升原因在于优化核心架构、采用更密集mesh网络互联架构扩展带宽、模块化规模更大且集成度更高、采用台积电最新InFO - SwW封装 [6] - 特斯拉纯视觉方案每天产生1600亿帧视频数据需处理,Dojo能助FSD学习新边缘场景,也适用于特斯拉机器人 [6] - xAI未来五年将部署“相当于5000万颗NVIDIA H100”的AI算力,扩建Colossus超级计算机,随着Grok训练开展,对算力需求将攀升 [6] 英伟达与AMD情况 - 英伟达发布GB300,GB300 NVL72系统AI性能预计达GB200 NVL72的1.5倍,预计25年9月大规模出货,2026年将推出Rubin系列GPU [8] - Rubin系列首次搭载HBM4内存技术,单卡容量提至288GB,带宽高达13TB/s,集群方案算力强大 [8] - 2025年Q1 AMD服务器市场份额达27.2%,预计2026年营收占比超越英特尔,市场份额达50% [8] - AMD推出Instinct MI400系列GPU及UALink技术,能提供高算力和支持大规模集群互联 [8] 特斯拉Robotaxi项目 - 特斯拉Robotaxi项目进入关键发展期,奥斯汀试点已累计行驶超7000英里,预计最早8月1日正式上线,还在布局欧洲和中国市场 [9] - Robotaxi与FSD系统深度融合,Dojo 2搭建的算力集群将提高FSD训练效率,形成“数据 - 训练 - 部署”闭环,明年将推出Dojo3芯片 [9] 公司业务布局 - 公司深耕PCB行业,以汽车领域为核心拓展至人工智能、人形机器人等新兴领域 [11] - 汽车PCB能提供三电、辅助驾驶及自动驾驶相关产品,基于技术同源进入储能等新产品供应链 [11] - AI PCB已实现28层AI服务器用线路板、5阶HDI板量产,覆盖主流工艺要求 [11] - 新兴领域自2020年起配合大客户研发人形机器人PCB产品,覆盖全系电子电路需求 [11] - 产能方面,2020年筹划年产300万平方米线路板新建项目,分三期开发,预计未来总体产能达700万平方米 [11] - 客户导入方面,凭借汽车PCB合作经验,在大客户超极计算机项目供货,进入Dojo供应链,获欧洲AI超算客户项目定点,进入NVIDIA、AMD供应链体系 [11] 盈利预测 - 预测公司2025 - 2027年收入分别为63.78、95.67、115.76亿元,EPS分别为1.24、2.07、2.63元,当前股价对应PE分别为28.0、16.8、13.3倍 [12]
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
第一财经· 2025-06-10 19:25
AI算力集群高可用性技术 核心观点 - AI算力集群需具备"永不罢工"能力,通过高可用性技术保障24小时稳定运行,成为驱动业务创新的可靠引擎[1] - 华为提出六大创新方案解决AI集群故障率高、恢复慢等问题,包括三大基础能力(故障感知诊断、故障管理、光链路容错)和三大业务支撑能力(集群线性度、训练快恢、推理快恢)[12] 技术方案细节 故障感知与诊断 - 行业现状:万卡级AI集群日均故障≥1次,故障定位耗时数小时至数天[2] - 华为方案: - 构建全栈可观测能力(集群运行视图/告警视图/网络链路监控等)[2] - 开发四大诊断技术(全栈故障模式库/跨域故障诊断/计算节点诊断/网络诊断)[2] - 实现千种故障模式库与分钟级故障诊断[12] 硬件可靠性提升 - 通过可靠性系统工程实现CloudMatrix超节点万卡集群MTBF>24小时[3] - 光链路容错方案: - 首创光链路软件容错技术,容忍度>99%[3] - 新增10倍光模块后闪断率降至电链路水平[3] - HBM多比特ECC故障恢复时间缩短至1min,算力损失下降5%[3] 训练效率优化 - 线性度提升技术: - 采用TACO、NSF、NB、AICT四项关键技术[4] - 实测结果: - 135B稠密模型4K卡线性度96%[6] - 718B稀疏模型8K卡线性度95.05%,4K卡线性度96.48%[6] - 训练快恢系统: - 万卡集群恢复时间<10min[7] - 进程级重调度恢复<3min,在线恢复<30s[9] - 训练回滚时间缩短至单个迭代周期[9] 推理容错方案 - 大EP组网架构下提出三级容错:实例间切换/实例内重启/实例内无损恢复[9] - 关键技术突破: - 实例内重启恢复<5min[10] - TOKEN级重试技术使HBM KV Cache故障恢复<10s,较行业标准提升60倍[10] 技术成效 - 万卡集群可用度达98%[12] - 训推恢复最快达秒级[12] - 集群线性度>95%[12]