Workflow
动态流水线推理
icon
搜索文档
业界首个!记忆张量联手商汤大装置落地国产 PD 分离集群,推理性价比达 A100 的 150%
新浪财经· 2025-12-05 20:56
核心观点 - 记忆张量与商汤大装置联合,在国产GPGPU上成功部署了业内首个以“记忆—计算—调度”一体化为核心的PD分离商用推理集群,实现了显著的性能提升和成本优势,标志着国产算力体系在大模型商业化路径上首次具备“体系级”竞争力 [1][8] 技术方案与架构创新 - 记忆张量的核心产品MemOS是业内唯一以记忆为中心、进行系统设计的基础设施,它将大模型认知结构划分为三类记忆,并形成跨时间尺度的调度链路,能精细决策计算的前移与保留 [2][9] - MemOS与PD分离技术结合,通过其调度逻辑将PD分离的收益空间最大化,使PD分离从一个性能优化技巧转变为可完整描述、度量并长期运行的新推理范式 [2][5][9] - 商汤大装置为MemOS提供了顶层系统级基础设施支撑,包括IaaS算力池、智能调度、Ignite框架的性能增强以及万象MaaS平台的统一调度策略 [2][10] - 在国产GPGPU集群上,MemOS的记忆结构被清晰映射为物理分工:P域作为“记忆工厂”批量预生成KV Cache;D域作为“实时交互前台”专注解码;跨节点KV Cache通过高带宽互联实现“即产即用” [4][12] 性能与效率成果 - 在真实C端负载下,单卡并发效率提升约20%,从25.00并发/卡提升至29.42并发/卡 [1][6][12] - 集群整体吞吐量提升超过75%,从Naive部署下的107.85 tokens/s提升到189.23 tokens/s [6][12] - 综合推理性价比达到同代NVIDIA A100的150%左右,在严格SLA与相同负载结构下,首次实现了对A100的体系级正面超越 [1][6][13] - TTFT(首字延迟)全程稳定小于2秒,KV Cache在热门场景中的命中率提升70%+,提高了预计算复用率,进一步摊薄了推理成本 [6][12] 行业意义与未来展望 - 该成果为高性能模型的大规模落地打开了全新的降本增效空间 [1][8] - 双方计划未来围绕更大规模国产GPGPU集群构建记忆驱动流水线推理底座,并持续打磨Prefill行为预测、多级记忆管理等方向,以承载伴随式AI、具身智能体等更复杂任务 [7][14] - 此次实践为国产算力体系开辟了一条从“参数计算”走向“记忆计算”、从“静态推理”走向“动态流水线”的结构性路线,国产GPGPU有机会成为下一代推理范式的定义者之一 [7][14]