Workflow
存力中国行北京站暨先进存力AI推理工作研讨会顺利召开
观察者网·2025-11-06 12:14

次数)不足,导致GPU等昂贵算力资源长时间空闲。传统存储架构难以兼顾高吞吐、低时延及异构数据 融合的需求,造成业务发展瓶颈,阻碍AI应用落地。华为针对AI推理研发的UCM推理记忆数据管理技 术在行业落地中的核心作用,通过"集中高质数据、提速AI训练、优化推理效能"三个角度,打造AI推理 加速解决方案。 唐安波在会上围绕大模型推理"推不动、推得慢、推得贵"问题展开分享,硅基流动构建的AI infra工具 链,聚焦提升算力利用率。核心推理框架适配100多款开源大模型,并通过公有云服务平台为广大开发 者和企业提供优质的大模型服务。解决方案上,结合UCM技术卸载KVCache释放显存、提升推理性 能,同时通过智能网关进一步优化流量调度、弹性扩缩容等策略,来应对高并发、低延时、高吞吐、长 上下文等痛点,基于存储的KVCache方案可大幅提升系统吞吐。 在内部研讨环节,参会专家围绕算力产业发展方阵先进存力AI推理工作组下一阶段工作建议进行研 讨,中国移动云能力中心、华为、硅基流动、浪潮信息、清微智能、东方算芯、智元芯、算苗科技、得 一微电子等工作组成员单位参与讨论,贡献实践经验。存力中国行暨先进存力AI推理工作研讨会的成 ...