报告投资评级 - 行业评级为“看好” [2] 报告核心观点 - 报告认为,2026年算力产业的核心关键词是推理,Token消耗总量和技术范式都将围绕推理进行革新,能够提供充足且高性价比推理芯片的厂商将最为受益 [4] - 推理算力正迎来四大趋势:需求全面加速、纯推理芯片出现、推理系统全方位革新、国产算力芯片加速突破 [3] - 对即将发布的DeepSeek V4抱有期待,预计其在推理和代码能力、长上下文与复杂任务处理能力(Agent)以及国产算力适配方面将有显著提升,技术架构延续极致推理优化和极致性价比的探索方向 [3][22] Token经济时代推理算力四大新趋势 趋势一:推理算力需求全面加速 - 春节期间国内大模型使用量激增:豆包在除夕当天AI互动总数达19亿,推理吞吐量达到633亿tokens,辅助用户生成5000万张AI头像及1亿条新春祝福语 [5];元宝的日活跃用户(DAU)超5000万,月活跃用户(MAU)已达1.14亿 [6];超过1.2亿人参与了千问的“春节大免单”活动 [6] - 中国模型全球调用量首次超越美国:根据OpenRouter数据,2月9日至15日这一周,中国模型调用量为4.12万亿Token,首次超过同期美国模型的2.94万亿Token [6];2月16日至22日,中国模型周调用量进一步冲高至5.16万亿Token,三周大涨127%,同期美国模型调用量跌至2.7万亿Token [6];全球调用量排名前五的模型中,中国模型占据四席 [6] - 应用场景多元化催生海量算力需求:2026年大模型货币化加速,Claude等模型开始向应用端切入,发布多款行业插件;Agent(如openclaw、千问 Agent)开始进入真正的工作生活生产中,这背后均需大量的算力支撑 [6] 趋势二:纯推理芯片成为新贵 - 产业巨头布局印证趋势:2025年12月24日,英伟达以200亿美金收购推理芯片公司Groq [9];OpenAI上个月与初创公司Cerebras达成了一项价值数十亿美元的计算合作,其专注于推理的芯片在速度上超越了英伟达的GPU [9] - 未来AI芯片技术格局:训练场景仍将使用GPU-HBM组合;推理场景将采用ASIC + LPU-SRAM + SSD组合的P-D(Prefill-Decode)分离解决方案 [9] - 市场机会:预计将涌现一批专注于推理芯片的厂商,搭载SRAM/GDDR,以极高的性价比为AI提供投资回报,促成AI闭环形成 [9] 趋势三:推理系统迎来全方位革新 - 系统架构向三层网络演进:为适配Agent需求,可能形成类似人类的三层网络架构 [11] 1. 快反应层:类似人的反射弧,由Decode专用芯片(如搭载SRAM的纯推理芯片)提供极致低延迟反馈 [11] 2. 慢思考层:类似人的大脑皮层,使用超大吞吐的算力集群负责后台并行的复杂逻辑推演和工具使用;此层对多核多线程CPU的需求增加 [11] 3. 记忆层:类似人的海马体,存储Agent的终身记忆和KV Cache,对应英伟达发布的ContextMemory System,通过Bluefield4 DPU管理的SSD实现 [11] - 存储与网络优化方案:Deepseek联合北大、清华发布的Dualpath方案,通过利用Decode节点闲置的网卡带宽来协助Prefill节点读取KV Cache,变相扩充了整个系统的存储IO能力,缓解了存储带宽瓶颈 [13];这一方案可能会增加对网卡和交换机的需求 [13] - 性能提升:Dualpath方案在测试中,使离线推理吞吐量提升1.87倍,在线服务吞吐量平均提升1.96倍 [30] 趋势四:国产算力芯片加速突破 - 华为昇腾950实现根本性提升: 1. 新增支持FP8/MXFP8/MXFP4等低精度数据格式,算力分别达到1P和2P,并支持自研HiF8格式 [17] 2. 大幅度提升向量算力,采用支持SIMD/SIMT双编程模型的新同构设计,并将内存访问颗粒度从512字节减少到128字节 [17] 3. 互联带宽相比Ascend 910C提升了2.5倍,达到2TB/s [18] 4. 在芯片层级实现PD分离,推出两款芯片:面向Prefill和推荐场景的Ascend 950PR(采用低成本自研HBM HiBL 1.0)和面向Decode和训练场景的Ascend 950DT [18];其中,Ascend 950PR将于2026年Q1推出 [18] - 供应链国产替代进程加快:盛合晶微的2.5D封装业务收入主要为高性能计算芯片(GPU)提供封装服务,此项业务收入正快速提升,2025年上半年收入达18.2亿元,侧面印证了国产算力芯片供给能力的持续提升 [18][19] 对DeepSeek V4的预期 推理和代码能力达业内领先水准 - 根据海外科技媒体The information,DeepSeek-V4主打编码能力,内部初步测试结果显示超过Claude和GPT系列 [23] - 报告认为该预期准确度较高,因为推理和代码能力是2025年至今国内外主流大模型厂商的重点冲刺领域,且AI编程是重点变现和渗透方向 [23] 长上下文和复杂长任务处理能力(Agent)提升 - 技术架构创新:DeepSeek近期发布的两篇重磅论文(Engram和DualPath)可能是其能力突破的关键 [25] - Engram论文核心:在MoE基础上引入Engram模块作为条件记忆轴,实现存算解耦,将海量KV-Cache移到CPU内存,通过O(1)哈希检索进行关键记忆回溯,在保障长上下文与推理精度的同时释放GPU计算压力 [25][26] - DualPath论文核心:解决智能体复杂任务工作负载下的性能瓶颈,通过利用decode节点闲置带宽协助读取kv-cache,再通过计算网络快速传输至prefill节点,实现动态负载均衡 [29][30] 国产算力适配 - 国产算力适配是当下国产独立模型厂商的重要发展趋势,例如智谱GLM 5已宣布全面拥抱国产算力生态 [36] - DeepSeek的Engram和DualPath两篇论文从工程优化上提高网络利用率、降低高性能显存依赖度,为国产化适配提供了高可行性 [36] 重点推荐投资主线 报告重点推荐九大投资主线,包括: 1. 数字经济领军 [37] 2. AIGC应用 [38] 3. AIGC算力 [38] 4. 数据要素 [38] 5. 信创弹性 [38] 6. 港股核心 [38] 7. 智联汽车 [38] 8. 新型工业化 [38] 9. 医疗信息化 [38] 各主线下包含详细标的公司列表 [37][38]
计算机行业周报:从国产算力变化到LPU!DS新模型前瞻-20260228