Workflow
CXL架构
icon
搜索文档
Token经济时代,AI推理跑不快的瓶颈是“存力”?
钛媒体APP· 2025-11-07 12:08
在日前由中国信息通信研究院组织的"先进存力 AI 推理工作研讨会"上,行业嘉宾达成共识,推理时代 的性能瓶颈、成本压力和体验优化,正在从算力侧转移到存储侧,先进存力不再是配角,而是推动 AI 真正落地的主动力量之一。 推理,正在改变 AI 产业的优先级 如果说过去两年是"参数规模"的军备竞赛,那么 2025 年开始的阶段则更接近"推理效率"的商业竞争。 Token调用量爆发式增长,推理成本持续攀升,在AI推理的性能指标中,都是以"Token数"为量纲。 AI加速落地,意味着"Token经济"的时代。模型训练可以只发生在几个大型企业的超级节点中,但模型 推理则遍布千行百业、无数产品端,决定着实际用户体验、服务成本和业务可持续性。 推理负载的根本变化集中在三个方面: 第一,长上下文和复杂任务让 KVCache 从模型的"临时记忆"变成影响性能的核心资产,其容量随 输入长度呈指数级增长; 第二,多模态从文本扩展到图像、音频、视频和时序数据,原本简单的顺序读写I/O模式已无法满 足实时推理的复杂需求; 第三,训推一体化趋势加速,模型在持续迭代和增量更新,推理系统需要在高负载下保持一致 性、低延迟和稳定性。 大模型产业 ...