推理性能优化 - 财报，业绩电话会，研报，新闻

推理性能优化

搜索文档

证券时报网· 2025-12-16 18:13

人民财讯12月16日电，据优刻得消息，12月16日下午，优刻得与清程极智举行战略合作签约协议。此次合作，双方将围绕国产算力资源整合、推理性能优化、模型服务平台建设等方向展开深度协同。优刻得将结合清程极智在推理引擎与系统软件方面的技术优势，对国产算力集群进行联合优化，提升算力利用率与推理性价比，推动闲置国产算力资源转化为稳定、可规模化交付的AI推理能力。同时，双方也将探索在模型聚合与服务平台上的合作，持续引入更多主流模型，面向企业与开发者提供更具性价比的 Token服务与模型调用体验。 ...

腾讯、华为、微软、阿里专家齐聚一堂，共谈推理优化实践｜ AICon

AI前线· 2025-04-23 15:28

大模型推理性能优化技术方向 - 当前优化围绕模型优化、推理加速与工程优化三大方向展开，包括模型量化、剪枝与蒸馏等手段降低计算复杂度，例如DeepSeek-R1-Distill-Qwen-32B采用蒸馏策略显著压缩资源开销 [1] - 依托SGLang、vLLM等高效推理引擎提升生成速度与系统吞吐能力，同时结合实际业务场景优化GPU配置与并发策略 [1] 腾讯混元AngelHCF框架实践 - 腾讯推理架构师向乾彪将分享混元大语言模型推理加速框架AngelHCF的优化实践，该框架在算子设计、通信优化和架构调整方面取得显著成本与性能优势 [1] - 专题演讲将重点解析混元Turbos Hybrid结构下的性能突破路径，展示腾讯在大模型推理加速领域的前沿实践 [2] 华为昇腾推理技术优化 - 华为高级开发工程师张君将探讨昇腾平台在计算、内存及通信瓶颈的解决方案，包括混元模型结构创新、Kernel与显存优化细节 [3] - 针对万亿参数级MoE模型提出混合切分策略、模型压缩和PD分离部署措施，通过智能调度与计算通信重叠提升推理效率 [3][4] 微软KV缓存优化技术 - 微软亚洲研究院姜慧强聚焦长文本推理挑战，围绕KV缓存生成、压缩与检索环节优化，提出动态稀疏注意力等创新方案 [5] - 将展示SCBench基准测试工具对比常规优化方法与KV缓存策略的性能差异，分析各大LLM供应商技术差异 [7] 阿里云跨层优化实践 - 阿里云技术专家李元龙提出从模型层、框架层到算子层的协同优化策略，利用昇腾硬件加速库ATB和图编译技术TorchAir实现性能跃升 [6] - 动态批处理技术与前沿融合算子设计案例展示如何最大化硬件资源效率，系统解析Transformer前向传播核心流程的优化空间 [8][9] AICon大会技术亮点 - 大会将涵盖多模态、Agent、端侧智能等前沿技术，包括跨层协同优化策略与动态计算图等突破算力瓶颈的方案 [10] - 50+行业专家将解析大模型最新进展，涉及AI原生产品落地、多模态训练及硬件终端应用场景等11个细分议题 [11]

推理性能优化

大模型

Artificial Intelligence

DeepSeek - R1 - Distill - Qwen - 32B

Artificial Intelligence

DeepSeek - R1 - Distill - Qwen - 32B

SGLang

vLLM