中国电信研究院取得大模型分布式推理技术突破
该试验成果自今年初在中国电信云网融合大科创装置上线以来,为中国电信集团公司、研究院、省专公 司等30余个科研项目提供API服务,累计处理Token超260亿个,同时在集团、省公司等多个项目试点落 地,充分证明了技术方案的可行性以及其在推理效率、吞吐量等方面的性能增益,为大规模部署提供了 解决方案支持及验证数据参考。未来,中国电信研究院将继续深耕大模型分布式推理优化技术,携手业 界伙伴,共同推动推理优化关键技术创新、标准制定和产业发展。(翼研) 本报讯日前,中国电信研究院依托中国电信云网融合大科创装置智算资源,联合北京大学在大模型分布 式推理优化领域实现了重大技术突破,攻克大模型推理效率与硬件成本的核心矛盾,成功打造出一套高 效率、低成本的企业级LLM推理优化方案,覆盖了大模型推理的主要应用场景。 在集群场景的优化上,为解决多任务混合场景中短请求受长请求干扰导致时延显著增长的问题,中国电 信研究院联合北京大学研发面向多任务场景的编排调度算法,并将其与云原生推理集群架构整合,实现 在1k—32k多长度请求混合的典型应用场景中,所有请求的平均端到端时延降低40%,短请求首Token时 延和解码时延下降75%。在边缘 ...