Workflow
故障诊断技术
icon
搜索文档
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
雷峰网· 2025-06-10 18:30
高可用性AI算力集群的核心价值 - AI算力集群作为智能应用的"超级大脑",需具备"永不罢工"能力以支撑实时路况分析、医疗影像处理等高强度任务[2] - 高可用性相当于为集群上"保险",使其既能应对日常故障又能保持突发故障下的稳定运行,避免成为"半成品"引擎[2] 故障感知与管理技术突破 - 行业现状:万卡级AI集群日均故障≥1次,故障定位耗时数小时至数天,严重影响训练效率[4] - 创新方案: - 构建全栈可观测能力(集群运行/告警视图、网络链路监控等)实现秒级故障感知[4] - 开发四大诊断技术(全栈故障模式库、跨域/计算节点/网络诊断)[4] - 建立可靠性分析模型,使CloudMatrix超节点MTBF>24小时[4] 光链路容错技术 - 首创超节点光链路软件容错方案,通过多层防护体系实现: - 光模块闪断容忍度>99%[5] - 新增10倍光模块后闪断率降至电链路水平[5][6] - HBM多比特ECC故障恢复时间缩短至1分钟,算力损失下降5%[6] 集群线性度优化 - 采用TACO、NSF等四项关键技术提升训练线性度: - Pangu Ultra 135B稠密模型在4K卡集群实现96%线性度[10] - Pangu Ultra MoE 718B稀疏模型在8K卡集群达95.05%线性度[10] 训练任务快恢系统 - 分层级恢复能力: - 万卡集群整体恢复<10分钟[12] - 进程级重调度恢复<3分钟[12] - 进程级在线恢复≤30秒[12] - 关键技术包括数据集索引加速、模型编译缓存等[12] 推理业务容错方案 - 大EP组网架构三级容错: - 实例内重启恢复<5分钟[14] - TOKEN级重试技术使HBM KV Cache故障恢复<10秒,较行业提升60倍[14] 综合技术成果 - 六大创新方案实现: - 万卡集群可用度98%[16] - 训推秒级快恢[16] - 线性度>95%[16] - 千种故障模式库与分钟级诊断[16] 未来技术方向 - 聚焦三大领域:新应用场景多元化、异构融合架构突破、智能自治工程范式[16]
调研速递|西安西测测试技术股份有限公司接受投资者调研,聚焦财务与业务发展要点
新浪财经· 2025-05-20 20:50
财务数据 - 2024年经营活动现金流净额虽仍为负值,但同比改善2,780.53万元,主要因经营现金流出同比增加较大,其中支付给职工以及为职工支付的现金同比增加 [2] - 2024年研发费用占营收比例达15.3%,研发资本化率仅8.2%,公司表示研发费用会计处理严格按会计准则进行 [2] - 2024年政府补助占净利润约-1.85%,公司持续关注补助申请及现金流管理 [2] - 2025年计划研发投入增长35%,但公司称目前尚未涉及量子检测及AI故障诊断技术 [2] - 2024年营收同比增长33.57%,净利润亏损扩大至0.45亿元,毛利率同比下降至32.4%,因新增实验室产能尚未充分释放 [3] - 应收账款周转天数延长至130天,公司制定制度加强清理 [3] 存货与子公司经营 - 2024年公司存货较2023年有所增加,主要因电子装联业务增加 [2] - 子公司西测电子净利润亏损扩大至0.18亿元,公司表示投资者提及的技术路线切换问题与公司具体业务有差异 [2] 资产负债与投资 - 资产负债率升至49.8%,有息负债率达36.5%,公司称负债规模仍在正常范围,会根据业务需要采取匹配融资工具 [3] - 2024年长期股权投资收益同比下降89%,相关子公司处于投入及取证阶段,尚未盈利 [3] - 固定资产投资同比增长58%用于电磁兼容实验室扩建,现有产能利用情况较好 [3] - 合同负债同比下降28%,公司称新签项目规模在预期范围内 [3] - 关联交易金额占比超20%,公司表示交易正常、价格公允 [3] - 资本性支出同比下降31%,公司按战略规划推进投入并关注数字化能力提升 [3] - 短期借款规模同比下降17%,公司关注资金管理与偿债能力,匹配相应融资方式 [3] 业务布局与人员管理 - 民用航空检测收入占比不足8%,公司民机业务主要集中在机载设备检测服务 [3] - 员工总数同比增加16.7%,检测工程师占比下降至58%,公司称不断完善薪酬激励机制,无核心技术人员流失风险 [3] 同业对比 - 对比同业,公司持续在信息化、智能化方面投入提升管理效率 [3]
西测测试(301306) - 301306西测测试投资者关系管理信息20250520
2025-05-20 20:06
财务指标相关 - 2024 年投资性房地产公允价值变动收益占净利润比例超 -26%(亏损抵减),关注非经常性损益可持续性及估值模型调整 [2] - 2024 年经营活动现金流净额同比下降 76.5%,主要因经营现金流出增加,支付职工现金同比增加 4,818.59 万元,公司将加强应收账款管理 [2] - 2024 年研发费用占营收比例达 15.3%,研发资本化率仅 8.2%,关注电磁兼容性新技术研发阶段及研发与商业化节奏平衡 [3] - 2024 年政府补助占净利润约 -1.85%(亏损放大效应),关注未来补助政策退坡时公司运营资金链稳定保障 [3] - 2024 年存货规模同比增长 29.6%,检测样品库存占比提升,主要因电子装联业务增加 [3] - 2024 年环境与可靠性试验收入占比提升至 45%,毛利率同比下滑 6.8 个百分点,主要因新建能力及投入未进入回报期 [4][5] - 2024 年资产负债率升至 49.8%,有息负债率达 36.5%,关注融资成本对利润空间影响及降杠杆方式 [5] - 2024 年长期股权投资收益同比下降 89%,主要联营企业亏损,关注投资回报周期评估 [5] - 2024 年固定资产投资同比增长 58%,用于电磁兼容实验室扩建,产能利用率 68%,关注设备调试及订单衔接风险 [5] - 2024 年合同负债同比下降 28%,关注在手订单执行进度及对 2025 年收入增长支撑 [5] - 2024 年资本性支出同比下降 31%,关注数字化检测平台投入及对未来检测效率影响 [6] - 2024 年营收同比增长 8.7%,净利润亏损扩大至 0.45 亿元,毛利率同比下降至 32.4%,因新增实验室产能未充分释放 [6] - 2024 年应收账款周转天数延长至 130 天,同比增加 22 天,关注客户付款周期及坏账准备计提比例调整 [6] - 短期借款规模同比增加 92%(实际下降 17%),货币资金同比下降 34%,关注短期偿债压力及融资渠道 [7] 业务发展相关 - 2025 年计划研发投入增长 35%,重点投向量子检测与 AI 故障诊断技术,关注短期业绩压力与长期技术储备平衡 [3] - 子公司西测电子净利润亏损扩大至 0.18 亿元,关注芯片级检测业务技术路线切换影响 [3] - 关联交易金额占比仍超 20%,涉及设备采购与技术服务,关注利益输送风险及供应链市场化程度提升 [5] - 民用航空检测收入占比不足 8%,毛利率高于军品业务,关注公司提升国际化水平计划 [6] 人员相关 - 员工总数同比增加 16.7%,检测工程师占比下降至 58%,关注核心技术人员流失风险及薪酬激励机制优化 [6] 行业对比相关 - 对比同业公司,关注西测测试在军用检测设备自动化程度、实验室管理效率上劣势对利润率提升的限制 [7]