阿里云AI基础设施成果入选顶级学术会议,显著提升GPU利用率
扬子晚报网·2025-10-16 16:29
文章核心观点 - 阿里云提出的GPU池化服务多模型研究成果Aegaeon入选顶级学术会议SOSP 2025,该系统通过token级调度等全栈技术创新,显著提升了GPU资源利用率和推理服务效率 [1][2] - 该技术已应用于阿里云百炼平台,在实际业务中取得了GPU资源需求大幅降低和模型调用量快速增长的效果 [1][2] 行业趋势与背景 - 计算机系统领域顶级学术会议SOSP 2025显示,系统软件与AI大模型技术的融合研究成为新趋势 [1] - 全球模型数量持续增长,Hugging Face已托管超100万个模型,但真实服务场景中超过90%的模型调用频率较低,而当前为每个模型预留推理实例的标准方案造成了GPU资源的大量浪费 [1] 技术创新与性能提升 - 多模型混合服务系统Aegaeon创新性地实现了token级别调度,在每次生成完下一个token后均可规划模型切换,并满足延迟要求 [2] - 通过组件复用、显存精细化管理和KV缓存同步优化等全栈技术,系统将模型切换开销降低97%,支持亚秒级模型切换响应 [2] - 系统支持单GPU同时服务多达7个不同模型,相比现有主流方案提升1.5-9倍的有效吞吐量,实现2-2.5倍的请求处理能力 [2] 商业应用与成效 - Aegaeon核心技术已部署于阿里云百炼平台,服务数十个模型的推理,将所需GPU数量减少了82% [2] - 阿里云百炼平台已上线Qwen、Wan、DeepSeek等200多款业界领先模型,过去一年该平台的模型调用量增长了15倍 [2]