计算机行业周报：从国产算力变化到LPU！DS新模型前瞻-20260228

报告投资评级 - 行业评级为“看好” [2] 报告核心观点 - 报告认为，2026年算力产业的核心关键词是推理，Token消耗总量和技术范式都将围绕推理进行革新，能够提供充足且高性价比推理芯片的厂商将最为受益 [4] - 推理算力正迎来四大趋势：需求全面加速、纯推理芯片出现、推理系统全方位革新、国产算力芯片加速突破 [3] - 对即将发布的DeepSeek V4抱有期待，预计其在推理和代码能力、长上下文与复杂任务处理能力（Agent）以及国产算力适配方面将有显著提升，技术架构延续极致推理优化和极致性价比的探索方向 [3][22] Token经济时代推理算力四大新趋势趋势一：推理算力需求全面加速 - 春节期间国内大模型使用量激增：豆包在除夕当天AI互动总数达19亿，推理吞吐量达到633亿tokens，辅助用户生成5000万张AI头像及1亿条新春祝福语 [5]；元宝的日活跃用户（DAU）超5000万，月活跃用户（MAU）已达1.14亿 [6]；超过1.2亿人参与了千问的“春节大免单”活动 [6] - 中国模型全球调用量首次超越美国：根据OpenRouter数据，2月9日至15日这一周，中国模型调用量为4.12万亿Token，首次超过同期美国模型的2.94万亿Token [6]；2月16日至22日，中国模型周调用量进一步冲高至5.16万亿Token，三周大涨127%，同期美国模型调用量跌至2.7万亿Token [6]；全球调用量排名前五的模型中，中国模型占据四席 [6] - 应用场景多元化催生海量算力需求：2026年大模型货币化加速，Claude等模型开始向应用端切入，发布多款行业插件；Agent（如openclaw、千问 Agent）开始进入真正的工作生活生产中，这背后均需大量的算力支撑 [6] 趋势二：纯推理芯片成为新贵 - 产业巨头布局印证趋势：2025年12月24日，英伟达以200亿美金收购推理芯片公司Groq [9]；OpenAI上个月与初创公司Cerebras达成了一项价值数十亿美元的计算合作，其专注于推理的芯片在速度上超越了英伟达的GPU [9] - 未来AI芯片技术格局：训练场景仍将使用GPU-HBM组合；推理场景将采用ASIC + LPU-SRAM + SSD组合的P-D（Prefill-Decode）分离解决方案 [9] - 市场机会：预计将涌现一批专注于推理芯片的厂商，搭载SRAM/GDDR，以极高的性价比为AI提供投资回报，促成AI闭环形成 [9] 趋势三：推理系统迎来全方位革新 - 系统架构向三层网络演进：为适配Agent需求，可能形成类似人类的三层网络架构 [11] 1. 快反应层：类似人的反射弧，由Decode专用芯片（如搭载SRAM的纯推理芯片）提供极致低延迟反馈 [11] 2. 慢思考层：类似人的大脑皮层，使用超大吞吐的算力集群负责后台并行的复杂逻辑推演和工具使用；此层对多核多线程CPU的需求增加 [11] 3. 记忆层：类似人的海马体，存储Agent的终身记忆和KV Cache，对应英伟达发布的ContextMemory System，通过Bluefield4 DPU管理的SSD实现 [11] - 存储与网络优化方案：Deepseek联合北大、清华发布的Dualpath方案，通过利用Decode节点闲置的网卡带宽来协助Prefill节点读取KV Cache，变相扩充了整个系统的存储IO能力，缓解了存储带宽瓶颈 [13]；这一方案可能会增加对网卡和交换机的需求 [13] - 性能提升：Dualpath方案在测试中，使离线推理吞吐量提升1.87倍，在线服务吞吐量平均提升1.96倍 [30] 趋势四：国产算力芯片加速突破 - 华为昇腾950实现根本性提升： 1. 新增支持FP8/MXFP8/MXFP4等低精度数据格式，算力分别达到1P和2P，并支持自研HiF8格式 [17] 2. 大幅度提升向量算力，采用支持SIMD/SIMT双编程模型的新同构设计，并将内存访问颗粒度从512字节减少到128字节 [17] 3. 互联带宽相比Ascend 910C提升了2.5倍，达到2TB/s [18] 4. 在芯片层级实现PD分离，推出两款芯片：面向Prefill和推荐场景的Ascend 950PR（采用低成本自研HBM HiBL 1.0）和面向Decode和训练场景的Ascend 950DT [18]；其中，Ascend 950PR将于2026年Q1推出 [18] - 供应链国产替代进程加快：盛合晶微的2.5D封装业务收入主要为高性能计算芯片（GPU）提供封装服务，此项业务收入正快速提升，2025年上半年收入达18.2亿元，侧面印证了国产算力芯片供给能力的持续提升 [18][19] 对DeepSeek V4的预期推理和代码能力达业内领先水准 - 根据海外科技媒体The information，DeepSeek-V4主打编码能力，内部初步测试结果显示超过Claude和GPT系列 [23] - 报告认为该预期准确度较高，因为推理和代码能力是2025年至今国内外主流大模型厂商的重点冲刺领域，且AI编程是重点变现和渗透方向 [23] 长上下文和复杂长任务处理能力（Agent）提升 - 技术架构创新：DeepSeek近期发布的两篇重磅论文（Engram和DualPath）可能是其能力突破的关键 [25] - Engram论文核心：在MoE基础上引入Engram模块作为条件记忆轴，实现存算解耦，将海量KV-Cache移到CPU内存，通过O(1)哈希检索进行关键记忆回溯，在保障长上下文与推理精度的同时释放GPU计算压力 [25][26] - DualPath论文核心：解决智能体复杂任务工作负载下的性能瓶颈，通过利用decode节点闲置带宽协助读取kv-cache，再通过计算网络快速传输至prefill节点，实现动态负载均衡 [29][30] 国产算力适配 - 国产算力适配是当下国产独立模型厂商的重要发展趋势，例如智谱GLM 5已宣布全面拥抱国产算力生态 [36] - DeepSeek的Engram和DualPath两篇论文从工程优化上提高网络利用率、降低高性能显存依赖度，为国产化适配提供了高可行性 [36] 重点推荐投资主线报告重点推荐九大投资主线，包括： 1. 数字经济领军 [37] 2. AIGC应用 [38] 3. AIGC算力 [38] 4. 数据要素 [38] 5. 信创弹性 [38] 6. 港股核心 [38] 7. 智联汽车 [38] 8. 新型工业化 [38] 9. 医疗信息化 [38] 各主线下包含详细标的公司列表 [37][38]