Workflow
GPU Pooling
icon
搜索文档
阿里云秘密武器亮相顶会:狂砍82%英伟达含量,213块GPU干了1192块的活
量子位· 2025-10-22 07:50
文章核心观点 - 阿里云与北京大学合作研发出名为Aegaeon的新型GPU池化系统,该系统通过token级别的自动扩缩容等创新技术,显著提升了GPU资源利用率并大幅降低了需求 [1][2][3][5] - 该技术已在实际生产环境中得到验证,能够将GPU使用量削减82%,并将GPU利用率从最高33.9%提升至48.1%,同时实现吞吐量最高9倍的提升 [3][18][20] 技术背景与痛点 - 在阿里云Model Studio(百炼平台)上,17.7%的GPU被分配用于服务仅处理总请求量1.35%的冷门模型,资源利用率极低 [4] - 统计的779个模型中,94.1%属于长尾模型,平均每秒请求量不到0.2个,而热门模型也存在突发流量导致资源时而过载时而闲置的问题 [6][7] - 传统为每个模型分配专用GPU的做法在面对大量偶发性请求时资源浪费严重,存在超过10倍的优化空间 [7][9] Aegaeon系统核心技术 - 核心创新在于采用token级别的自动扩缩容技术,在生成每个token时动态决定是否切换模型,而非在请求级别进行调度 [10][11] - 通过一系列底层优化将自动扩缩容的开销降低了97%,包括组件复用减少80%初始化开销、显式内存管理避免碎片、细粒度KV缓存同步使模型切换时间缩短至1秒以内 [14][15] 性能表现与实际部署 - 与ServerlessLLM和MuxServe等现有系统相比,Aegaeon能支撑2-2.5倍的请求到达率,有效吞吐量提升1.5到9倍 [18] - 在16块H800 GPU的测试集群中,成功服务了从6B到72B参数规模的多个模型 [18] - 系统已在阿里云百炼平台进行超过3个月的生产环境测试,服务了47个不同规模的模型,期间无任何SLO违规或服务中断 [19][20] - 实际部署使GPU利用率从之前的13.3%-33.9%提升到了48.1% [20]