大模型推理性能优化技术方向 - 当前优化围绕模型优化、推理加速与工程优化三大方向展开,包括模型量化、剪枝与蒸馏等手段降低计算复杂度,例如DeepSeek-R1-Distill-Qwen-32B采用蒸馏策略显著压缩资源开销 [1] - 依托SGLang、vLLM等高效推理引擎提升生成速度与系统吞吐能力,同时结合实际业务场景优化GPU配置与并发策略 [1] 腾讯混元AngelHCF框架实践 - 腾讯推理架构师向乾彪将分享混元大语言模型推理加速框架AngelHCF的优化实践,该框架在算子设计、通信优化和架构调整方面取得显著成本与性能优势 [1] - 专题演讲将重点解析混元Turbos Hybrid结构下的性能突破路径,展示腾讯在大模型推理加速领域的前沿实践 [2] 华为昇腾推理技术优化 - 华为高级开发工程师张君将探讨昇腾平台在计算、内存及通信瓶颈的解决方案,包括混元模型结构创新、Kernel与显存优化细节 [3] - 针对万亿参数级MoE模型提出混合切分策略、模型压缩和PD分离部署措施,通过智能调度与计算通信重叠提升推理效率 [3][4] 微软KV缓存优化技术 - 微软亚洲研究院姜慧强聚焦长文本推理挑战,围绕KV缓存生成、压缩与检索环节优化,提出动态稀疏注意力等创新方案 [5] - 将展示SCBench基准测试工具对比常规优化方法与KV缓存策略的性能差异,分析各大LLM供应商技术差异 [7] 阿里云跨层优化实践 - 阿里云技术专家李元龙提出从模型层、框架层到算子层的协同优化策略,利用昇腾硬件加速库ATB和图编译技术TorchAir实现性能跃升 [6] - 动态批处理技术与前沿融合算子设计案例展示如何最大化硬件资源效率,系统解析Transformer前向传播核心流程的优化空间 [8][9] AICon大会技术亮点 - 大会将涵盖多模态、Agent、端侧智能等前沿技术,包括跨层协同优化策略与动态计算图等突破算力瓶颈的方案 [10] - 50+行业专家将解析大模型最新进展,涉及AI原生产品落地、多模态训练及硬件终端应用场景等11个细分议题 [11]
腾讯、华为、微软、阿里专家齐聚一堂,共谈推理优化实践 | AICon
AI前线·2025-04-23 15:28