Workflow
英伟达 H100
icon
搜索文档
策略周报:国产算力趋近质变临界点-20260426
中银国际· 2026-04-26 22:35
核心观点 - DeepSeek V4的发布标志着国产大模型已基本跑通从底层硬件到上层应用的全栈国产化,国产算力板块或正趋近质变临界点[2][9] - 随着以华为昇腾950为代表的国产超节点硬件在下半年规模化交付,国产算力有望从“同成本、低效率”的被动局面,迈入“低成本、中高效率”的新阶段[2][12] - 当前配置A股国产算力板块的风险收益对价更佳,其股价相对于海外算力链处于历史低值,若远期中国算力占全球比例提升至15%,则国产算力/海外算力股价比有望走高[2][15] 市场整体表现 - 本周A股市场交投活跃,周成交额中枢在2.60万亿元以上,新易盛单日成交额突破500亿元,创A股科技股历史新高[2][8] - 市场呈现业绩市特征,2026年一季报预增板块本周上涨1.84%,业绩超预期个股获资金青睐[2][8] - 受地缘政治扰动影响,资源品板块受大资金青睐,煤炭、基础化工、石油石化等行业涨幅靠前,但有金属板块因交易拥挤度升高及长假前获利了结而出现阶段性修整[2][8] - 本周A股主力资金净卖出468.59亿元,结束此前连续2周的净买入,单周净卖出规模创3周以来最大[48] - 本周股票型ETF场内净赎回金额703.97亿元,为连续第7周净赎回,单周净赎回规模创2个月以来最大[48] 国产算力产业进展与前景 - DeepSeek V4已在使用国产算力(华为昇腾NPU)进行推理,华为昇腾超节点全系列产品已支持该模型,实现低成本且兼顾万卡级别集群规模[2][9] - 目前华为昇腾、寒武纪等8家国产AI芯片品牌均已适配DeepSeek V4[9] - 华为昇腾950单卡推理能力已接近英伟达H100,价格不到其一半(约6000-10000美元 vs 20000美元以上)[12][13] - 昇腾950在FP8算力为1 PFLOPS,FP16算力为1440 TFLOPS,功耗(TDP)为600W[13] - 报告预计国产超节点将在2026年第二季度小批量交付,并在下半年实现全面规模化量产[2][12] - 从epoch AI数据看,2025年第四季度中国境内算力供给中,国产占比持续提升并已成为第一大来源,预计远期中国境内算力供给将占全球的15%,且主要由国产算力供应[15] 板块与行业表现 - AI主线保持强势,但板块内部分化,科创50指数本周上涨2.13%,跑赢创业板指(下跌0.29%),体现国产算力有接棒海外算力链之势[8] - 从一级行业看,煤炭、电子、基础化工本周涨幅靠前,而有色金属、钢铁、消费者服务、传媒等行业表现靠后[39] - 从估值-盈利性价比看,计算机、消费者服务、传媒、医药、有色金属等行业2026年预测净利润增速维持较高水平且市盈率分位数处于80%分位数以下,具备较优配置价值[46] - 在AI产业链中,本周PCB(上涨4.31%)、服务器(上涨6.72%)、国产算力(上涨3.15%)等子板块表现相对坚挺,而光模块(上涨0.18%)、基础大模型(下跌0.52%)等表现相对较弱[50] - 本周主力资金最青睐的行业是电子,净流入规模达379.14亿元;资金净流出规模最大的三个行业是有色金属、机械设备和医药生物[48][55] 大类资产与市场情绪 - 受美伊谈判僵局影响,布伦特原油价格本周大幅反弹12.66%[23] - 金油比自上周的48.99快速下行至本周的42.07,自本轮高点回落幅度达42.7%[20][21] - 全球主要股指表现分化,韩国KOSDAQ指数本周上涨2.89%,日经指数上涨2.12%,而斯托克指数下跌2.75%[23] - 截至4月24日,万得全A股权风险溢价(ERP)为2.36%,较4月10日下降0.01个百分点,当前指数较理论上行空间为5.7%[33] - 市场情绪指标显示,BOCIASIA慢线情绪由71.2%回升至72.1%,而快线情绪由52.5%下降至46.0%[31] - 近两周行业轮动强度趋于走弱,市场主线风格较为集中[37]
Token需求膨胀引致算力紧缺,算力环节全线涨价
中邮证券· 2026-04-21 13:48
行业投资评级 - 行业投资评级为“强于大市”,且维持该评级 [1] 报告核心观点 - 核心观点认为,随着AI应用深度渗透,Token消耗量持续爆发式增长,算力供给瓶颈日益突出,算力供需存在失衡,看好未来从算力租赁到云服务再到大型模型的持续涨价趋势 [7] 行业基本情况与表现 - 计算机行业收盘点位为5179.19,52周最高点为6151.34,52周最低点为4368.05 [1] - 行业相对指数表现图表显示,计算机行业相对沪深300指数有超额收益 [2][3] Token需求与算力紧缺现状 - Token需求膨胀性增长是算力紧缺的关键推动因素 [4] - 国内日均Token调用量到2026年3月已超过140万亿,相比2024年初的1000亿增长了1000多倍,相比2025年底的100万亿,在三个月内又增长了40%多 [4] - 海外AI公司Anthropic因用户空前需求,在报告发布前已出现7次系统性宕机,其年化营收已突破300亿美元,比2025年底的约90亿美元翻了三倍多 [4] 算力租赁环节涨价情况 - 算力紧缺叠加存储等成本上升,促使算力租赁步入卖方涨价市场 [5] - 英伟达最先进的Blackwell系列芯片单小时租金已达4.08美元,较两个月前的2.75美元上涨48% [5] - H100的一年期租赁合约价格已由2025年10月的低点约1.70美元/小时/GPU提升至2026年3月的2.35美元/小时/GPU,涨幅近40% [5] 云服务与大型模型环节涨价情况 - 国内阿里云在四天内三次调价,涉及大模型服务平台百炼(MU单元涨价2%-5%)、DDoS高防(弹性95从100元涨至150元/Mbps/月)及DataWorks API [6] - 海外Anthropic将Claude Enterprise从固定订阅转为按算力消耗计费,基础月费20美元,重度用户成本可能翻倍至三倍 [6] - 在此之前,腾讯、百度等多家头部公司也已相继上调大型模型价格 [6] 投资建议与关注方向 - 建议关注算力租赁/IDC方向,相关公司包括宏景科技、盈峰环境、润建股份、协创数据、利通电子、大位科技、东阳光、东方国信、润泽科技、数据港、奥飞数据等 [7] - 建议关注云服务方向,相关公司包括金山云、优刻得、青云科技、网宿科技、首都在线、深信服、铜牛信息等 [7] - 建议关注大型模型方向,相关公司包括MiniMax、智谱等 [7] - 建议关注IM入口方向,相关公司包括阿里巴巴、腾讯等 [7] - 建议关注算力硬件方向,相关公司包括寒武纪、海光信息、天数智芯、壁仞科技、智微智能等 [7]
金山云20260416
2026-04-17 11:31
涉及的公司与行业 * 公司:金山云 [1] * 行业:AI算力、云计算服务 [2] 核心观点与论据 * **行业进入卖方市场,涨价趋势明确且持续** * 云服务行业正进入二十年来的首次卖方市场 [3] * 海外市场:H100租赁价格过去五个月从1.7美元涨至2.35美元,涨幅40% [3] Blackwell芯片租金两个月内从2.75美元跳涨至4.08美元,涨幅近50% [3] * 国内市场:阿里云、百度云、腾讯云等自2026年3月起密集宣布并执行涨价 [4] * 涨价持续性判断:AI需求(长文本推理、多模态等)呈指数级爆发,而上游供给相对刚性,导致供需错配 [4] 新签及存量合同到期后提价,正面影响将持续一到两年甚至更长时间 [4] * **金山云AI业务占比高、增长快,定位独立第三方** * AI收入占比领先:2025年AI相关收入30亿,占整体收入超30% [5] 2025年第四季度AI收入达9.3亿,占公有云收入50% [5] * 2026年AI收入预测:预计达55-60亿,同比增速近90%,占整体营收比例将升至45% [2][5] * 独立第三方定位:公司不自研模型,对客户无限制,已获Kimi、智谱、MiniMax等“AI六小龙”订单 [2][6] 2025年第四季度除小米外的前五大客户同比增长44% [6] * **2026年迎来盈利拐点,基本面显著改善** * 营收预测:2026年总营收预计超125亿,同比增长32% [2][7] 其中AI收入增速近90%,外部客户营收增速预计超70% [8] * 利润预测:预计2026年全年经营利润(OP)margin转正达个位数 [2][8] 调整后EBITDA利润率预计升至30%以上(2025年为24%) [8] * **估值显著低估,修复空间大** * 当前估值:对应2026年预测PS仅2.8倍 [2][8] * 同业对比:A股同类公司预测PS约10倍,美股New Cloud板块四家公司平均PS约10倍 [8] * 历史对比:公司自身前向一年预测PS在2024年底至2025年初高点曾达4.5倍,当前2.8倍PS仍有约60%上涨空间 [8] * 分部估值法:基于2026年预测,在不同假设下目标市值对应上涨空间分别为25%、57%和85% [9] * **投资逻辑:稀缺的纯正AI云计算弹性标的** * 金山云是港股稀缺的纯粹AI云计算标的,市值弹性远超综合性云巨头 [2][9] * 核心逻辑:受益于AI算力需求爆发及云服务涨价红利,是承接行业价值重构的核心弹性标的 [2] 其他重要内容 * **内部生态基本盘稳定**:作为小米和金山生态体系内唯一的战略云平台,受益于小米MiMo大模型的持续迭代 [6] * **外部客户增长强劲**:预计2026年来自外部客户的AI收入比重将超过内部生态 [6] * **短期市场观点**:尽管股价已从2.5倍PS提升至2.9倍PS,但当前时点向上仍有约35%的短期空间 [3]
计算机行业深度研究报告:国产智算芯片:需求强劲,性能生态再进阶
华创证券· 2025-08-29 21:32
行业投资评级 - 推荐(维持)国产智算芯片行业投资评级 [2] 核心观点 - 全球智算算力需求持续高景气 国产智算市场空间广阔 [5] - 硬件性能呈多维技术路线 国产算力方案竞争力得验证 [5] - 软件兼容性适配自主标准 国产生态逐步突破CUDA垄断 [5] - 建议关注算力产业方向 包括芯片 服务器 数据中心 交换机 硬件/端侧等细分领域 [5] 智算需求高企:模型迭代与推理、资本开支和政策多重共振 - 全球AI算力基建投入持续爆发 OpenAI"星际之门"计划投资5000亿美元 xAI Colossus配备20万块H100GPU Meta建设两个"吉瓦级"超级计算集群 [5][10] - 主权AI布局提速 阿联酋建设5GW AI园区支持约250万颗B200芯片运行 欧盟投入100亿欧元建设13家人工智能工厂 [5][11] - 国内Token日消耗量从2024年初千亿级跃升至2025年3月十万亿级 一年增长100倍 [5][13] - 2025-2029年中国智算芯片市场CAGR为53.7% GPU份额由69.9%升至77.3% [5][18] - 截至2024年底国内AIDC累计投入超过1875亿元 阿里巴巴计划2025-2027年投入超3800亿元建设云和AI基础设施 [5][23] - 2024年三大运营商资本开支总额3188.7亿元 2025年计划降至2898亿元 但算力与AI相关投入逆势增长 [26] - 美国实体清单持续扩容 国产替代加速 2024年我国智算芯片出货量占比超30% [5][36] 硬件性能突破:多维技术路线并行 - 中芯国际14nm良率>95% 7nm量产稳步推进 华为昇腾910C以7nm+EUV工艺将FP16算力推至448 TFLOPS 较910B功耗降15% [5][41] - 华为昇腾910C采用Chiplet双芯封装 1024芯片集群FP16算力达819.2PFLOPS 可对标NVIDIA H100集群 [5][47] - 寒武纪思元590支持8芯片级联 FP16集群算力2.048 PFLOPS [5][47] - 华为CloudMatrix384单机柜集成384颗昇腾910与192颗鲲鹏CPU FP16峰值300 PFLOPS 跨节点延迟<1µs 线性扩展度95% [5][57] - 在DeepSeek-R1预填充效率4.45 tokens/s/TFLOPS 优于SGLang在NVIDIA H100默认配置下的3.18 tokens/s/TFLOPS [5][60] 软件生态突围:从兼容适配迁移到自主标准 - NVIDIA凭15年CUDA沉淀形成全球数百万开发者依赖的生态闭环 2024年3月EULA再禁转译层运行阻断第三方兼容路径 [5][64] - 华为CANN 海光DTK 寒武纪BANG+MagicMind等自研软件栈同步落地 [5][73] - 商汤DeepLink跨10余款国产芯片完成千亿参数模型20天不间断训练 效率保持95% [5][76] - 信通院AISHPerf 无问芯穹Infini-AI 阶跃星辰"模芯联盟"推动国产模型与芯片从适配走向全链路协同 [5][80] - 伴随《算力互联互通能力要求》 "一度算力"计量标准及400G ROADM网络落地 全国算力正由"可用"向"可交易 可调度 可度量"升级 [5]
晶圆级芯片,是未来
36氪· 2025-06-30 07:49
大模型算力需求与硬件挑战 - 大模型参数规模已达万亿级别,计算能力需求两年内增长1000倍,远超硬件迭代速度 [1] - GPU集群面临两大瓶颈:单芯片物理尺寸限制晶体管数量,多芯片互联时数据传输延迟与带宽损耗导致性能无法线性增长 [1] - 当前AI训练硬件分为两大阵营:晶圆级集成专用加速器(如Cerebras WSE-3/Tesla Dojo)和传统GPU集群(如英伟达H100) [1] 晶圆级芯片技术突破 - 传统芯片受限于曝光窗尺寸(最大单Die约858mm²),晶圆级芯片通过不切割晶圆实现高密度互连,算力集群占地面积缩小10-20倍,功耗降低30%以上 [2][3] - Cerebras WSE-3采用台积电5nm工艺,集成4万亿晶体管/90万AI核心/44GB缓存,支持1.2PB片外内存,单片面积46,225mm² [6][8] - 特斯拉Dojo采用Chiplet路线,25颗D1芯粒集成在晶圆基板上,单芯粒645mm²含500亿晶体管,单Dojo系统算力达9Petaflops [10] 性能指标对比 - **计算性能**:WSE-3 FP16精度达125PFLOPS,Dojo单Tile 362TFLOPS(BF16),H100单芯片60TFLOPS(FP64) [13] - **内存带宽**:WSE-3达21PB/s,Dojo单Tile 900GB/s,H100 3.35TB/s [13] - **延迟优化**:WSE-3单片架构降低通信延迟10倍,Dojo芯片间延迟100纳秒,H100依赖NVLink但延迟仍高于晶圆级系统 [16] 应用场景与成本分析 - **专用性**:WSE-3擅长超大规模模型训练(如24万亿参数),Dojo针对自动驾驶视频流优化,H100通用性更强 [14][15][16] - **成本结构**:Dojo单系统3-5亿美元,WSE-3单系统200-300万美元,英伟达H100单芯片成本显著更低但长期运营能耗高 [18] - **扩展性**:晶圆级芯片面临可扩展性限制与高制造成本,GPU集群在初期部署成本上更具优势 [17][19] 行业技术演进方向 - 晶圆级芯片代表当前最高算力节点集成密度,英伟达NVL72通过提升GPU集群密度间接向该方向靠拢 [20] - 晶圆级技术路线分化:Cerebras采用单片集成,特斯拉选择Chiplet+先进封装,两者均规避传统GPU的互联瓶颈 [10][13][20]