Workflow
传统云还在「卖铁」,下一代云已在「炼钢」:火山引擎xLLM如何一张卡榨出两张的性能!
机器之心·2025-05-27 12:11

大模型推理效率挑战 - 大模型性能提升但企业面临推理成本高、算力投入大、效果不成正比的问题 [2] - 推理效率成为大模型落地的新门槛,企业需堆叠GPU以满足TPOT和TPS指标 [2] - 行业普遍通过增加GPU数量解决问题,但核心问题在于算力利用率不足 [2][24] xLLM框架性能优势 - 在输入3500:输出1500场景下,xLLM单卡TPS达SGLang 0.4.5的2.05倍 [12] - 在输入2500:输出1500场景下,xLLM单卡TPS达SGLang 0.4.5的2.28倍 [12] - 极限情况下xLLM单机总吞吐达6233 TPS,是开源框架的十倍 [13] - 相同吞吐水平下xLLM平均TPOT为30ms,比开源框架低64% [13] - Hopper 96G机型使用xLLM成本比141G机型开源方案低89% [12] xLLM技术架构创新 - 采用P/D角色分离架构,实现Prefill和Decode阶段算力独立优化 [17] - 配备高性能KV Cache传输能力,支持跨节点跨GPU数据高效移动 [17] - 支持异构计算组合,可部署不同角色到不同GPU卡型 [18] - 具备池化部署能力,根据流量特征动态扩缩角色资源 [18] - 多级KV Cache存储方案平衡缓存效率与计算开销 [19] AI云原生战略布局 - xLLM集成至ServingKit推理套件,13秒完成模型显存加载 [21][22] - ServingKit在开源引擎基础上优化,TPS提升2.4倍 [22] - 提出以AI负载为中心的基础架构新范式 [20] - 强调"巧炼钢"理念,通过全栈优化提升单卡利用率 [24][25] 行业趋势与解决方案 - 企业需求从"卡多卡新"转向"算力高效利用" [24][25] - 面临推理潮汐和异构算力调度两大核心挑战 [23] - Hopper 96G+xLLM组合已验证在性价比上的优势 [25] - 云服务竞争重点转向工程优化能力而非硬件堆叠 [25]