腾讯、华为、微软、阿里专家齐聚一堂，共谈推理优化实践｜ AICon

在人工智能快速演进的浪潮下，大模型正加速重构各行业的技术底座，而推理性能优化正成为应对算力挑战、内存瓶颈与通信压力的关键突破口。当前，大模型推理性能优化主要围绕模型优化、推理加速与工程优化三大方向展开：通过模型量化、剪枝与蒸馏等手段降低计算复杂度、提升推理效率，例如 DeepSeek-R1-Distill-Qwen-32B 采用蒸馏策略，在保持高性能的同时显著压缩资源开销；依托 SGLang、vLLM 等高效推理引擎提升生成速度与系统吞吐能力；同时结合实际业务场景，合理规划并发策略、优化 GPU 配置，打造具备高可用性与扩展性的推理服务体系。在即将于 5 月 23 日 -24 日举办的 AICon 全球人工智能开发与应用大会·上海站中，我们特别策划了《大模型推理性能优化策略》专题论坛，由阿里云公共云大模型技术服务负责人王德山担任专题出品人，现已确认多位业内实践者参与分享。以下为嘉宾阵容及即将带来的精彩议题简介～向乾彪 – 腾讯推理架构师姜慧强专注于高效推理和训练方法的探索。在多项国际顶级会议上发表过高水平论文，他的研究领域涵盖动态稀疏注意力、KV 缓存优化、提示压缩等前沿 ...