Workflow
AI算力集群
icon
搜索文档
世运电路(603920):公司动态研究报告:汽车PCB技术领先,绑定特斯拉成长空间广阔
华鑫证券· 2025-07-31 13:31
报告公司投资评级 - 买入(维持) [2] 报告的核心观点 - 公司业绩表现亮眼,PCB产品量价齐升,未来绑定科技大客户,PCB业务成长空间广阔,维持“买入”评级 [5][12] 各部分内容总结 公司业绩 - 2024年公司实现营业收入50.22亿元,同比增长11.13%;归母净利润6.75亿元,同比增长36.17%;扣非归母净利润6.56亿元,同比增长34.15% [5] - 2025Q1公司实现营业收入12.17亿元,同比增长11.33%;归母净利润1.80亿元,同比增加65.61% [5] - 业绩提升原因系业务量提升、产品结构优化以及单价提升等 [5] Dojo2相关情况 - Dojo2芯片已进入量产倒计时,性能比第一代提升10倍,算力性能直逼英伟达的Blackwell B200芯片 [6] - 性能提升原因在于优化核心架构、采用更密集mesh网络互联架构扩展带宽、模块化规模更大且集成度更高、采用台积电最新InFO - SwW封装 [6] - 特斯拉纯视觉方案每天产生1600亿帧视频数据需处理,Dojo能助FSD学习新边缘场景,也适用于特斯拉机器人 [6] - xAI未来五年将部署“相当于5000万颗NVIDIA H100”的AI算力,扩建Colossus超级计算机,随着Grok训练开展,对算力需求将攀升 [6] 英伟达与AMD情况 - 英伟达发布GB300,GB300 NVL72系统AI性能预计达GB200 NVL72的1.5倍,预计25年9月大规模出货,2026年将推出Rubin系列GPU [8] - Rubin系列首次搭载HBM4内存技术,单卡容量提至288GB,带宽高达13TB/s,集群方案算力强大 [8] - 2025年Q1 AMD服务器市场份额达27.2%,预计2026年营收占比超越英特尔,市场份额达50% [8] - AMD推出Instinct MI400系列GPU及UALink技术,能提供高算力和支持大规模集群互联 [8] 特斯拉Robotaxi项目 - 特斯拉Robotaxi项目进入关键发展期,奥斯汀试点已累计行驶超7000英里,预计最早8月1日正式上线,还在布局欧洲和中国市场 [9] - Robotaxi与FSD系统深度融合,Dojo 2搭建的算力集群将提高FSD训练效率,形成“数据 - 训练 - 部署”闭环,明年将推出Dojo3芯片 [9] 公司业务布局 - 公司深耕PCB行业,以汽车领域为核心拓展至人工智能、人形机器人等新兴领域 [11] - 汽车PCB能提供三电、辅助驾驶及自动驾驶相关产品,基于技术同源进入储能等新产品供应链 [11] - AI PCB已实现28层AI服务器用线路板、5阶HDI板量产,覆盖主流工艺要求 [11] - 新兴领域自2020年起配合大客户研发人形机器人PCB产品,覆盖全系电子电路需求 [11] - 产能方面,2020年筹划年产300万平方米线路板新建项目,分三期开发,预计未来总体产能达700万平方米 [11] - 客户导入方面,凭借汽车PCB合作经验,在大客户超极计算机项目供货,进入Dojo供应链,获欧洲AI超算客户项目定点,进入NVIDIA、AMD供应链体系 [11] 盈利预测 - 预测公司2025 - 2027年收入分别为63.78、95.67、115.76亿元,EPS分别为1.24、2.07、2.63元,当前股价对应PE分别为28.0、16.8、13.3倍 [12]
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
第一财经· 2025-06-10 19:25
AI算力集群高可用性技术 核心观点 - AI算力集群需具备"永不罢工"能力,通过高可用性技术保障24小时稳定运行,成为驱动业务创新的可靠引擎[1] - 华为提出六大创新方案解决AI集群故障率高、恢复慢等问题,包括三大基础能力(故障感知诊断、故障管理、光链路容错)和三大业务支撑能力(集群线性度、训练快恢、推理快恢)[12] 技术方案细节 故障感知与诊断 - 行业现状:万卡级AI集群日均故障≥1次,故障定位耗时数小时至数天[2] - 华为方案: - 构建全栈可观测能力(集群运行视图/告警视图/网络链路监控等)[2] - 开发四大诊断技术(全栈故障模式库/跨域故障诊断/计算节点诊断/网络诊断)[2] - 实现千种故障模式库与分钟级故障诊断[12] 硬件可靠性提升 - 通过可靠性系统工程实现CloudMatrix超节点万卡集群MTBF>24小时[3] - 光链路容错方案: - 首创光链路软件容错技术,容忍度>99%[3] - 新增10倍光模块后闪断率降至电链路水平[3] - HBM多比特ECC故障恢复时间缩短至1min,算力损失下降5%[3] 训练效率优化 - 线性度提升技术: - 采用TACO、NSF、NB、AICT四项关键技术[4] - 实测结果: - 135B稠密模型4K卡线性度96%[6] - 718B稀疏模型8K卡线性度95.05%,4K卡线性度96.48%[6] - 训练快恢系统: - 万卡集群恢复时间<10min[7] - 进程级重调度恢复<3min,在线恢复<30s[9] - 训练回滚时间缩短至单个迭代周期[9] 推理容错方案 - 大EP组网架构下提出三级容错:实例间切换/实例内重启/实例内无损恢复[9] - 关键技术突破: - 实例内重启恢复<5min[10] - TOKEN级重试技术使HBM KV Cache故障恢复<10s,较行业标准提升60倍[10] 技术成效 - 万卡集群可用度达98%[12] - 训推恢复最快达秒级[12] - 集群线性度>95%[12]
华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断
量子位· 2025-06-10 13:16
大模型算力集群技术 - 构建万卡级算力集群是全球顶尖技术挑战,性能稳定依赖强大算力支撑[1] - AI算力需24小时不间断运作,支撑导航路况分析、医疗CT诊断等实时智能应用[2][3] - AI推理可用度需达99.95%,高训练可用度、高线性度、快速故障消除是关键保障[4][5] 华为高可用技术体系 三大基础能力 - **全栈可观测能力**:训练可用度98%(全年358天可用)、线性度超95%(1000卡比100卡快9.5倍)、秒级恢复与分钟级诊断[9] - **故障诊断组合拳**:包含全栈故障模式库、跨域诊断、计算节点诊断、网络诊断四大技术,缩短故障定位时间[12][19] - **自愈系统**:超节点光链路软件容错技术可容忍99%光模块闪断,HBM多比特ECC故障修复时间从数小时缩短至1分钟[15][16] 三大业务支撑能力 - **集群线性度**:Pangu Ultra 135B稠密模型4K卡训练线性度96%,718B稀疏模型8K卡线性度95.05%[24] - **训练快恢**:分层分级恢复系统实现万卡集群10分钟恢复,进程级在线恢复仅需30秒[27][29] - **推理快恢**:实例内重启恢复<5分钟,TOKEN级重试技术使HBM故障恢复时间从10分钟降至10秒[35][36] 关键技术突破 - **通信优化**:TACO拓扑任务分配、NSF网存算融合、NB分层通信、AICT无侵入诊断提升数据传输效率[31] - **推理架构容错**:三步保险计划(实例间切换、实例内重启、无损恢复)降低大EP架构故障影响[34][37] - **效率提升**:光链路压力测试使光模块闪断概率降至电链路水平,算力损失减少5%[16]
华为昇腾万卡集群揭秘:如何驯服AI算力「巨兽」?
雷峰网· 2025-06-09 21:37
算力集群技术演进 - AI算力集群通过连接上万台计算机形成"算力航空母舰",解决大模型训练中的协同工作、故障恢复等世界级难题 [3] - 万卡集群可用度达到98%,实现训练+推理场景下的秒级快速恢复 [1] 超节点高可用技术 - 采用系统层/业务层/运维层三级容错方案,将故障转为亚健康问题并通过运维手段消除 [5] - 系统层通过超时代答欺骗OS和网络路由切换防止超节点级故障 [5] - 业务层实现租户无感知的网络闪断重试,运维层通过主动感知技术削减亚健康事件影响 [6] 集群线性度优化 - 华为提出TACO、NSF、NB、AICT四项关键技术,实现算力规模与性能的近似线性增长 [8] - 实测Pangu Ultra 135B模型在4K卡集群线性度达96%,718B MoE模型在8K卡集群线性度95.05% [8] 万卡训练恢复技术 - 采用进程级重调度恢复技术将训练中断恢复时间缩短至3分钟内 [12] - 进程级在线恢复技术针对硬件UCE故障实现30秒内恢复,算子级在线恢复实现通信算子秒级重执行 [12] MoE模型推理容错 - 大EP组网架构下提出三级容错方案,实例恢复时间从20分钟降至5分钟 [14][15] - TOKEN级重试技术实现30-60秒实例恢复,减卡弹性恢复技术实现用户无感知的秒级恢复 [15] 故障诊断体系 - 构建全栈可观测能力,包含集群运行视图、网络链路监控等模块 [17] - 故障诊断覆盖全栈故障模式库、跨域诊断、计算节点诊断等维度 [17] 建模仿真平台 - 马尔科夫建模仿真平台实现训练吞吐提升4.5%-8.24%,通信暴露时间降低89.84% [20] - 推理建模仿真平均误差低至6.6%,高可用建模实现全周期故障场景仿真 [21] 框架迁移方案 - MindSpore通过MSAdapter工具覆盖90%以上PyTorch接口,实现第三方框架无缝迁移 [23] - 推理阶段支持HuggingFace权重一键部署,盘古72B模型实现推理性能提升 [23] 行业发展趋势 - 算力基础设施将形成"应用需求→硬件创新→工程反哺"的闭环演进路径 [25] - 未来方向包括算法驱动算力专用化、光电混合架构革新、AI智能化运维等 [25]
华为如何驯服AI算力「巨兽」?
虎嗅APP· 2025-06-09 20:54
通用人工智能(AGI)与系统工程创新 - 单点技术演进边际效应递减,系统性能天花板转向系统工程上限,需通过系统工程创新实现效能最优[1] - 华为推出《华为技术披露集》系列,首次全面详述技术细节,助力昇腾生态在中国发展[1][2] 万卡集群技术 - AI算力集群将上万台计算机整合为"算力航空母舰",解决协同工作、高效运行和快速修复等世界级难题[3] - 华为团队提出拓扑感知协同编排技术TACO等四项关键技术,训练Pangu Ultra 135B稠密模型时4K卡集群线性度达96%[8] 超节点高可用 - 算力集群采用"系统层容错"、"业务层容错"和"运维层容错"方案,将故障转为亚健康问题,确保24小时不间断运行[5][6] - CloudMatrix 384超节点通过超时代答欺骗OS和网络路由切换,避免系统级故障[6] 集群线性度 - 华为技术实现盘古模型训练线性度提升,8K卡A2集群训练Pangu Ultra MoE 718B稀疏模型时线性度达95.05%[8] 万卡集群训练快速恢复 - 进程级重调度恢复技术将训练恢复时间缩短至3分钟以内,进程级在线恢复技术进一步缩短至30秒以内[10][11] - 算子级在线恢复技术实现网络故障影响的通信算子秒级重执行,训练任务不中断[11] 超大规模MoE模型推理恢复 - 三级容错方案实现实例间切换、实例内重启恢复和实例内无损恢复,实例恢复时间从20分钟降至5分钟[13] - TOKEN级重试技术在CloudMatrix 384超节点场景下实现30~60秒实例恢复[13] 故障管理与感知诊断 - 华为提供昇腾AI硬件灾备高可靠架构设计,涵盖故障隔离、容错能力和故障预测等[15] - 全栈可观测能力和故障诊断技术实现大规模集群在线故障感知和诊断[16] 建模仿真 - 马尔科夫建模仿真平台实现训练、推理和高可用领域的多维度建模分析,训练吞吐提升4.5%-8.24%[18][19] - 推理建模仿真平台平均误差低至6.6%,高可用建模仿真框架实现全周期监控仿真[19] 框架迁移 - 昇思MindSpore构建MSAdapter生态适配工具,覆盖90%以上PyTorch接口,实现第三方框架无缝迁移[21] - 推理阶段支持HuggingFace权重配置一键部署,实现盘古72B模型推理性能提升[21] 未来展望 - 算力基础设施将形成"应用需求→硬件创新→工程反哺"闭环,实现高效、弹性、自愈的下一代系统[23]
独家揭秘!华为如何让万台AI服务器秒变「超级大脑」
第一财经· 2025-06-09 17:01
AI算力集群的关键特性 - AI算力集群通过连接上万台甚至几十万台计算机形成"算力航空母舰",以应对万亿参数大模型的计算需求[1] - 需要解决协同工作、高效运行和快速修复等世界级难题[1] 超节点高可用 - 算力集群采用"备用替身"机制,确保单台机器故障时任务无缝接管,避免全盘停止[3] - 华为提出系统层、业务层和运维层三级容错方案,将故障转为亚健康问题并优雅消除[3][4] 集群线性度 - 理想情况下算力应随计算机数量线性增长,华为通过精密任务分配算法实现接近完美的线性度[6] - 实验显示训练Pangu Ultra 135B模型时4K卡集群线性度达96%,Pangu Ultra MoE 718B模型8K卡集群线性度达95.05%[8] 万卡集群训练快速恢复 - 系统具备"存档功能",可在设备故障时从最新进度恢复,避免从头训练[10] - 华为创新技术将训练恢复时间缩短至3分钟内,部分场景可达30秒内[11] 超大规模MoE模型推理恢复 - 大EP组网架构下硬件故障可能导致整个推理实例不可用[13] - 华为三级容错方案将实例恢复时间从20分钟降至5分钟,TOKEN级重试实现30~60秒恢复[15] 故障管理与感知诊断 - 实时监控系统持续监测设备健康状态,快速定位并修复故障[17] - 华为提供完整的硬件灾备高可靠架构设计和RAS统一故障管理框架[17] 建模仿真 - 虚拟环境"数字化风洞"可预测模型真实表现,提前发现系统瓶颈[19] - 华为马尔科夫建模仿真平台在训练、推理和高可用领域实现系统性建模分析[19][20] 框架迁移 - 昇思MindSpore框架覆盖90%以上PyTorch接口,实现第三方框架无缝迁移[22] - 推理阶段支持HuggingFace权重一键部署,实现盘古72B模型推理性能提升[22] 总结与展望 - 华为在算力集群多个维度提出创新方案,形成完整技术体系[24] - 未来算力基础设施将走向算法-算力-工程协同进化,形成需求-创新-反哺闭环[24]
华为昇腾万卡集群揭秘:如何驯服AI算力「巨兽」?
机器之心· 2025-06-09 12:33
AI算力集群的核心作用 - AI算力集群通过连接上万台甚至几十万台计算机形成"算力航空母舰",支撑大模型训练和复杂AI任务处理[3] - 单台计算机算力无法满足万亿参数大模型需求,集群化方案解决算力瓶颈问题[3] - 集群需要解决设备协同工作、故障容错、训练中断恢复等世界级工程难题[4] 超节点高可用技术 - 采用系统层/业务层/运维层三级容错方案,将故障转为亚健康状态并通过运维手段消除[7][8] - 系统层通过超时代答欺骗OS和网络路由切换防止系统级故障[7] - 业务层实现租户无感知的网络闪断重试,运维层构筑亚健康感知和优雅恢复技术[8] 集群线性度优化 - 通过拓扑感知协同编排(TACO)、网存算融合(NSF)等四项关键技术实现算力线性扩展[11] - 训练Pangu Ultra 135B模型时4K卡集群线性度达96%,718B稀疏模型8K卡集群线性度95.05%[13] - 理想状态下集群应实现算力与设备数量的线性增长,避免资源内耗[10] 万卡集群快速恢复 - 采用进程级重调度恢复技术将训练恢复时间缩短至3分钟内[15] - 进程级在线恢复技术针对硬件UCE故障实现30秒内恢复[15] - 算子级在线恢复技术实现网络故障下的秒级重执行,保持训练连续性[15] MoE模型推理容错 - 大EP组网架构下提出实例间切换/实例内重启/实例内无损三级容错方案[19] - 实例内快速重启技术将恢复时间从20分钟降至5分钟[20] - TOKEN级重试技术在CloudMatrix 384场景实现30-60秒实例恢复[21] 故障感知与诊断 - 构建全栈可观测能力,包括集群运行视图、网络链路监控等模块[26] - 建立全栈故障模式库,涵盖跨域诊断、计算节点诊断等能力[26] - 实时监控系统持续跟踪设备温度、算力利用率等健康指标[24] 建模仿真技术 - Sim2Train平台通过AdaptPack编排优化使训练吞吐提升4.5%-8.24%[31] - Sim2Infer推理仿真平台实现硬件指令自动化映射,平均误差6.6%[33] - 高可用仿真框架建模单步时长内的故障影响与恢复耗时[35] 框架迁移方案 - MindSpore通过MSAdapter工具覆盖90%以上PyTorch接口实现生态兼容[38] - 推理阶段支持HuggingFace权重一键部署,vLLM插件提升大模型服务能力[38] - 动态图执行通过多级流水线与JIT编译优化显著提升效率[38] 未来发展趋势 - 算法-算力-工程协同进化将形成"应用需求→硬件创新→工程反哺"闭环[39] - 算力专用化趋势下需异构加速,架构革新如光电混合将释放性能潜力[39] - AI运维等智能化手段将成为弥合系统复杂度鸿沟的关键[39]