腾讯、华为、微软、阿里专家齐聚一堂,共谈推理优化实践 | AICon
AI前线·2025-04-23 15:28
在人工智能快速演进的浪潮下,大模型正加速重构各行业的技术底座,而 推理性能优化 正成为应对 算力挑战、内存瓶颈与通信压力的关键突破口。 当前,大模型推理性能优化主要围绕 模型优化、推理加速与工程优化 三大方向展开:通过模型量 化、剪枝与蒸馏等手段降低计算复杂度、提升推理效率,例如 DeepSeek-R1-Distill-Qwen-32B 采用 蒸馏策略,在保持高性能的同时显著压缩资源开销;依托 SGLang、vLLM 等高效推理引擎提升生成 速度与系统吞吐能力;同时结合实际业务场景,合理规划并发策略、优化 GPU 配置,打造具备高可 用性与扩展性的推理服务体系。 在即将于 5 月 23 日 -24 日举办的 AICon 全球人工智能开发与应用大会·上海站 中,我们特别策划了 《大模型推理性能优化策略》专题论坛,由阿里云公共云大模型技术服务负责人 王德山 担任专题出 品人,现已确认多位业内实践者参与分享。以下为嘉宾阵容及即将带来的精彩议题简介~ 向乾彪 – 腾讯推理架构师 姜慧强专注于高效推理和训练方法的探索。在多项国际顶级会议上发表过高水平论文,他的研究领域 涵盖动态稀疏注意力、KV 缓存优化、提示压缩等前沿 ...