KV缓存
搜索文档
开启存储下一个大机会!韩媒详解黄仁勋“神秘推理上下文内存平台”
华尔街见闻· 2026-01-25 13:28
英伟达发布ICMS平台的技术细节与架构 - 英伟达在2026年CES上发布了名为“推理上下文内存平台”(ICMS)的全新硬件,旨在解决AI推理阶段爆炸式增长的数据存储需求[1] - 该平台的核心是解决AI推理中的“KV缓存”(键值缓存)问题,随着AI转向大规模推理应用,现有GPU显存和服务器内存架构已难以满足海量数据需求[1][3] - 平台采用新的“BlueField-4”DPU与超大容量SSD相结合,一个标准ICMS机架包含16个SSD托架,每个托架由4个DPU管理600TB的SSD,使单个机架总容量达到9600TB[4][14][16] - 此容量远超传统GPU机架,一套包含8个机架的VeraRubin GPU平台SSD总容量约为4423.68TB,ICMS容量是其两倍多[4][16] - 通过该平台,GPU的可用内存容量在虚拟层面上从1TB提升到了16TB,并借助BlueField-4实现了每秒200GB的KV缓存传输速度,解决了大容量SSD的网络传输瓶颈[4][18][19] ICMS平台对存储行业的影响与机遇 - 该技术变革标志着AI硬件架构重心从算力堆叠向高效上下文存储转移,NAND闪存和SSD有望成为继HBM之后的下一个关键增长引擎[1][2] - ICMS平台主要利用SSD,直接利好NAND闪存制造商,将开启NAND闪存的“黄金时代”,过去几年AI热潮的焦点主要集中在HBM,而NAND闪存和SSD未受到同等关注[2][5][23] - 英伟达将ICMS定位为介于服务器内部本地SSD和外部存储之间的“第3.5层”存储,由高性能DPU管理的SSD具备大容量、速度快且断电不丢失数据的优势,成为存储KV缓存的理想选择[5][21] - 由于ICMS对存储密度的极高要求,市场对企业级SSD和NAND闪存的需求将大幅攀升,三星电子和SK海力士将直接受益[5][21] - 英伟达正在推进“Storage Next”(SCADA)计划,旨在让GPU绕过CPU直接访问NAND闪存,以进一步消除数据传输瓶颈[5][23] 韩国存储巨头的战略布局与合作 - SK海力士已迅速响应趋势,正与英伟达合作开发名为“AI-N P”的原型产品,计划利用PCIe Gen 6接口,在2026年底推出支持2500万IOPS的存储产品[5][23] - SK海力士预计到2027年底,将产品性能提升至1亿IOPS,2500万IOPS是目前固态硬盘速度的10倍以上[5][23] - 随着各大厂商加速布局,NAND闪存和SSD有望在AI推理时代迎来量价齐升的新周期[5] KV缓存的技术原理与行业驱动 - KV缓存是AI理解对话上下文、进行逻辑推理的关键,它通过键向量识别问题主题,并利用模型内部数据及历史对话上下文进行权重分配和推理,以避免重复计算和“幻觉”[3][8][9] - 随着AI从学习转向推理,以及应用场景向多模态(如图像、视频)扩展,所需处理的KV缓存数据量呈现不规则且爆炸式增长[3][11] - 面对KV缓存的爆炸式增长,现有服务器内部存储架构(HBM、DRAM、本地SSD)已难以满足未来推理时代的需求,专用存储平台成为刚需[3][12]
来自 Manus 的一手分享:如何构建 AI Agent 的上下文工程?
Founder Park· 2025-07-19 02:51
技术路线选择 - 公司选择基于上下文工程而非端到端模型训练,实现几小时内发布改进而非数周迭代[3] - 历史教训显示自研模型易被前沿技术颠覆,如GPT-3与Flan-T5使早期开放信息抽取模型失效[3] - 采用"随机梯度下降"方法四次重构智能体框架,通过手动架构搜索优化上下文塑造[4] KV缓存优化 - KV缓存命中率是核心指标,Claude Sonnet缓存/未缓存的token成本相差10倍(0.3 vs 3美元/百万token)[6][7] - 智能体输入输出token比例达100:1,需保持提示前缀稳定、上下文追加式更新、标记缓存断点提升效率[6][11] - 动态增删工具会破坏KV缓存,应通过上下文感知状态机屏蔽logits而非移除工具[10][12] 上下文管理策略 - 将文件系统作为外化记忆,支持按需读写解决128K上下文窗口限制,保留URL/路径实现可还原压缩[17][19][23] - 通过复述机制(如todo.md文件)操控模型注意力,50次工具调用任务中避免目标偏离[24][27] - 保留错误内容可提升智能体适应性,失败行动记录能降低重复错误概率[28][31] 提示工程实践 - 少样本提示需引入结构化变化防止模式固化,动作/观察序列采用不同模板打破重复性[32] - 函数调用支持Auto/Required/Specified三种模式,通过统一工具前缀实现状态无关约束[15][20] - 上下文工程决定智能体行为边界,需平衡模型原生能力与环境反馈[33][34]