Workflow
AI存储优化
icon
搜索文档
未知机构:AI储存调研-20260211
未知机构· 2026-02-11 09:25
行业与公司 * 涉及的行业为人工智能(AI)基础设施与算力行业,特别是大模型推理优化、存储技术及国产芯片领域[1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20][21] * 讨论内容聚焦于AI服务提供商(尤其是大型云厂商或头部模型公司)在优化Agent推理成本、存储架构及应对硬件供应链变化方面的技术实践与策略[1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20][21] 核心观点与论据 **1. AI推理优化中的“以存代算”架构** * 在Agent执行过程中,理解(规划)阶段由最强大的模型负责,执行阶段可调用不同大小的模型,并辅以工具矩阵[1][2] * 核心优化手段是“以存代算”,通过缓存历史问答的KV(Key-Value)对来避免重复计算,最高可命中**67%** 的缓存,即**100个问题中有67个**可直接从KV中获取答案[2] * 该架构将推理集群分为prefill集群和decoding集群,存储采用分层结构(HBM、DRAM、SSD),用于存放热、温、冷数据,此做法在大厂中已广泛应用[3] **2. 存储技术细节与成本考量** * 存储的核心是KV而非文本,例如**2000字**文本对应的KV可能达**2.4GB**,而文本本身仅几十KB,存储KV是为了节约算力[6] * 日志明文存储在HDD上,而推理产生的KV则存储在SSD上,SSD需支持高吞吐(每秒几GB到几十GB)[9][12] * SSD上KV的生命周期通常至少保存**90天**[11] * AI推理导致SSD读写频次远高于传统数据库模式,可能缩短其使用寿命,加速替换周期,从而推高需求[13] * “以存代算”兼具效率与经济性考量,从存储抽取数据回溯的速度至少是逐token生成的**3倍**[14] * 该技术是AI推理降本的核心驱动力之一,以国内某头部模型为例,**2025年年初到年末,其推理成本下降了40%到60%**[14] * SSD现货价当前约为**0.3美金/GB**,若价格上涨至当前的**2到2.5倍**,“以存代算”的性价比将面临较大压力;若涨至**2.5到3倍**(即约**0.75到0.9美金/GB**),相关价格体系需重新调整[17][18][21] * 性价比逻辑在于节省的推理成本与存储成本的对比,若存储价格上涨导致成本节省幅度从**60%** 降至**5%到10%**,则“以存代算”意义不大[21] **3. 硬件供应链与国产化趋势** * 高端GPU(如H200)进口政策为“总量控制、分类管理、精准调控”,仅头部大模型训练企业有资格申请配额,通道未关闭但总量减少[15] * 政策目标明确:一是通过定向采购缩短国内外AI能力差距;二是保护国产芯片,避免海外产品大规模冲击[16] * **2026年**将要求大厂在采购英伟达芯片时,同步测试甚至采购国产芯片,国家持积极扶持态度[16] * **2026年至2027年上半年**被视作关键窗口期,国产芯片需从“基本可用”迈向“整体好用”[16] * 面对SSD价格上涨压力,供应链需寻求多样化,国产替代是缓冲压力的重要手段[20] 其他重要内容 * 缓存命中率存在天花板,约在**60%到70%**,因AI服务需兼顾共性回复与差异化输出[4] * 对C端用户的缓存建模主要是一对一,但会从海量数据中挖掘共性问题[5] * “以存代算”中的缓存命中是全局性的,系统会检查是否有已存储的对应问题-答案KV对[6] * 技术优化会避免计算量与存储量呈简单的线性乘法关系,而是通过优化压缩系数[7] * 存储涨价中,SSD涨幅比DRAM更明显,因它是长链路缓存的最终承载瓶颈[8] * DRAM在缓存架构中仅存**几个小时**的数据,读写频次非常高[13]