Workflow
纯推理芯片
icon
搜索文档
计算机行业周报:从国产算力变化到LPU!DS新模型前瞻-20260228
申万宏源证券· 2026-02-28 20:13
报告投资评级 - 行业评级为“看好” [2] 报告核心观点 - 报告认为,2026年算力产业的核心关键词是推理,Token消耗总量和技术范式都将围绕推理进行革新,能够提供充足且高性价比推理芯片的厂商将最为受益 [4] - 推理算力正迎来四大趋势:需求全面加速、纯推理芯片出现、推理系统全方位革新、国产算力芯片加速突破 [3] - 对即将发布的DeepSeek V4抱有期待,预计其在推理和代码能力、长上下文与复杂任务处理能力(Agent)以及国产算力适配方面将有显著提升,技术架构延续极致推理优化和极致性价比的探索方向 [3][22] Token经济时代推理算力四大新趋势 趋势一:推理算力需求全面加速 - **春节期间国内大模型使用量激增**:豆包在除夕当天AI互动总数达19亿,推理吞吐量达到633亿tokens,辅助用户生成5000万张AI头像及1亿条新春祝福语 [5];元宝的日活跃用户(DAU)超5000万,月活跃用户(MAU)已达1.14亿 [6];超过1.2亿人参与了千问的“春节大免单”活动 [6] - **中国模型全球调用量首次超越美国**:根据OpenRouter数据,2月9日至15日这一周,中国模型调用量为4.12万亿Token,首次超过同期美国模型的2.94万亿Token [6];2月16日至22日,中国模型周调用量进一步冲高至5.16万亿Token,三周大涨127%,同期美国模型调用量跌至2.7万亿Token [6];全球调用量排名前五的模型中,中国模型占据四席 [6] - **应用场景多元化催生海量算力需求**:2026年大模型货币化加速,Claude等模型开始向应用端切入,发布多款行业插件;Agent(如openclaw、千问 Agent)开始进入真正的工作生活生产中,这背后均需大量的算力支撑 [6] 趋势二:纯推理芯片成为新贵 - **产业巨头布局印证趋势**:2025年12月24日,英伟达以200亿美金收购推理芯片公司Groq [9];OpenAI上个月与初创公司Cerebras达成了一项价值数十亿美元的计算合作,其专注于推理的芯片在速度上超越了英伟达的GPU [9] - **未来AI芯片技术格局**:训练场景仍将使用GPU-HBM组合;推理场景将采用ASIC + LPU-SRAM + SSD组合的P-D(Prefill-Decode)分离解决方案 [9] - **市场机会**:预计将涌现一批专注于推理芯片的厂商,搭载SRAM/GDDR,以极高的性价比为AI提供投资回报,促成AI闭环形成 [9] 趋势三:推理系统迎来全方位革新 - **系统架构向三层网络演进**:为适配Agent需求,可能形成类似人类的三层网络架构 [11] 1. **快反应层**:类似人的反射弧,由Decode专用芯片(如搭载SRAM的纯推理芯片)提供极致低延迟反馈 [11] 2. **慢思考层**:类似人的大脑皮层,使用超大吞吐的算力集群负责后台并行的复杂逻辑推演和工具使用;此层对多核多线程CPU的需求增加 [11] 3. **记忆层**:类似人的海马体,存储Agent的终身记忆和KV Cache,对应英伟达发布的ContextMemory System,通过Bluefield4 DPU管理的SSD实现 [11] - **存储与网络优化方案**:Deepseek联合北大、清华发布的Dualpath方案,通过利用Decode节点闲置的网卡带宽来协助Prefill节点读取KV Cache,变相扩充了整个系统的存储IO能力,缓解了存储带宽瓶颈 [13];这一方案可能会增加对网卡和交换机的需求 [13] - **性能提升**:Dualpath方案在测试中,使离线推理吞吐量提升1.87倍,在线服务吞吐量平均提升1.96倍 [30] 趋势四:国产算力芯片加速突破 - **华为昇腾950实现根本性提升**: 1. 新增支持FP8/MXFP8/MXFP4等低精度数据格式,算力分别达到1P和2P,并支持自研HiF8格式 [17] 2. 大幅度提升向量算力,采用支持SIMD/SIMT双编程模型的新同构设计,并将内存访问颗粒度从512字节减少到128字节 [17] 3. 互联带宽相比Ascend 910C提升了2.5倍,达到2TB/s [18] 4. 在芯片层级实现PD分离,推出两款芯片:面向Prefill和推荐场景的Ascend 950PR(采用低成本自研HBM HiBL 1.0)和面向Decode和训练场景的Ascend 950DT [18];其中,Ascend 950PR将于2026年Q1推出 [18] - **供应链国产替代进程加快**:盛合晶微的2.5D封装业务收入主要为高性能计算芯片(GPU)提供封装服务,此项业务收入正快速提升,2025年上半年收入达18.2亿元,侧面印证了国产算力芯片供给能力的持续提升 [18][19] 对DeepSeek V4的预期 推理和代码能力达业内领先水准 - 根据海外科技媒体The information,DeepSeek-V4主打编码能力,内部初步测试结果显示超过Claude和GPT系列 [23] - 报告认为该预期准确度较高,因为推理和代码能力是2025年至今国内外主流大模型厂商的重点冲刺领域,且AI编程是重点变现和渗透方向 [23] 长上下文和复杂长任务处理能力(Agent)提升 - **技术架构创新**:DeepSeek近期发布的两篇重磅论文(Engram和DualPath)可能是其能力突破的关键 [25] - **Engram论文核心**:在MoE基础上引入Engram模块作为条件记忆轴,实现存算解耦,将海量KV-Cache移到CPU内存,通过O(1)哈希检索进行关键记忆回溯,在保障长上下文与推理精度的同时释放GPU计算压力 [25][26] - **DualPath论文核心**:解决智能体复杂任务工作负载下的性能瓶颈,通过利用decode节点闲置带宽协助读取kv-cache,再通过计算网络快速传输至prefill节点,实现动态负载均衡 [29][30] 国产算力适配 - 国产算力适配是当下国产独立模型厂商的重要发展趋势,例如智谱GLM 5已宣布全面拥抱国产算力生态 [36] - DeepSeek的Engram和DualPath两篇论文从工程优化上提高网络利用率、降低高性能显存依赖度,为国产化适配提供了高可行性 [36] 重点推荐投资主线 报告重点推荐九大投资主线,包括: 1. 数字经济领军 [37] 2. AIGC应用 [38] 3. AIGC算力 [38] 4. 数据要素 [38] 5. 信创弹性 [38] 6. 港股核心 [38] 7. 智联汽车 [38] 8. 新型工业化 [38] 9. 医疗信息化 [38] 各主线下包含详细标的公司列表 [37][38]
计算机行业周报 20260223-20260227:从国产算力变化到 LPU!DS 新模型前瞻!-20260228
申万宏源证券· 2026-02-28 19:01
行业投资评级 - 报告对计算机行业评级为“看好” [2] 核心观点 - 报告认为,2026年算力产业的核心关键词是推理,Token消耗总量和技术范式都将围绕推理进行革新,能够提供充足、高性价比推理芯片的厂商将最为受益 [3][4] - 报告重点阐述了推理算力需求的四大趋势,并前瞻了DeepSeek V4模型的预期方向 [3] 根据目录总结 1. Token经济时代,推理算力四大新趋势 - **趋势1:推理算力需求全面加速**:春节期间国内头部大模型推理数据大幅增长,例如豆包在除夕当天推理吞吐量达到633亿tokens,辅助用户生成5000万张AI头像及1亿条新春祝福语 [3][5];元宝的月活跃用户已达1.14亿 [6];根据OpenRouter数据,2月9日至15日当周,中国AI模型调用量以4.12万亿Token首次超过美国的2.94万亿Token,随后一周(2月16日至22日)进一步冲高至5.16万亿Token,三周大涨127%,同期美国模型调用量跌至2.7万亿Token,全球调用量前五的模型中中国占据四席 [3][6] - **趋势2:纯推理芯片成为新贵**:英伟达以200亿美元收购推理芯片公司Groq,OpenAI与Cerebras达成数十亿美元合作,印证了纯推理芯片的重要性 [3][7][9];未来技术格局将演变为训练使用GPU-HBM组合,推理使用ASIC+LPU-SRAM+SSD组合,专注于推理芯片的厂商将迎来发展机遇 [3][9] - **趋势3:推理系统迎来全方位革新**:为适配Agent需求,系统架构可能形成“快反应层”、“慢思考层”、“记忆层”三层网络,其中对多核多线程CPU的需求增加 [3][10][11];在存储层面,通过优化KV缓存层级来缓解带宽瓶颈,例如DeepSeek提出的Dualpath方案,利用Decode节点的闲置带宽来协助Prefill节点读取数据,从而提升系统吞吐量,该方案在测试中使离线推理吞吐量提升1.87倍,在线服务吞吐量平均提升1.96倍 [3][13][30];系统革新同时带动了网卡、交换机需求的提升 [3][13] - **趋势4:国产算力芯片加速突破**:华为昇腾950芯片在低精度数据格式支持、向量算力、互联带宽(相比Ascend 910C提升2.5倍至2TB/s)及芯片层级的PD分离(Prefill与Decode场景分离)等方面实现根本性提升,其首款推理芯片Ascend 950PR预计于2026年第一季度推出 [3][17][18];此外,盛合晶微的2.5D封装业务收入快速增长(2025年上半年收入达12.3亿元),侧面印证了国产算力芯片供给能力的持续提升 [3][18][19] 2. 我们在期待怎么样的DeepSeek V4? - **推理和代码能力达到业内领先水准**:根据海外科技媒体信息,DeepSeek-V4主打编码能力,内部初步测试结果显示超过Claude和GPT系列,报告认为该预期准确度较高 [22][23] - **长上下文和复杂长任务处理能力(Agent)提升**:DeepSeek App近期将上下文处理长度由128K扩展至1M [25];其近期发布的两篇重磅技术论文(Engram和DualPath)为能力突破提供了支持:Engram模块通过存算解耦,将海量KV-Cache移至CPU内存,以较低成本实现参数规模扩大或提升小模型性能 [25][26][29];DualPath方案通过利用Decode节点闲置带宽,有效解决了Agent场景下的存储带宽瓶颈 [29][30] - **国产算力适配**:国产算力适配是国产独立模型厂商的重要发展趋势,DeepSeek的Engram和DualPath等技术从工程优化角度提高网络利用率、降低对高性能显存的依赖,为国产化适配提供了高可行性 [22][36] 3. 重点推荐主线 - 报告列出了九大重点投资主线,包括:1) 数字经济领军;2) AIGC应用;3) AIGC算力;4) 数据要素;5) 信创弹性;6) 港股核心;7) 智联汽车;8) 新型工业化;9) 医疗信息化 [3][37][38] - 报告提供了详细的重点公司估值表,涵盖了上述主线中的多家上市公司 [40][41][42]