9位顶级研究员连讲3晚，华为盘古大模型底层研究大揭秘

大语言模型技术发展 - 大语言模型（LLMs）已成为通用人工智能系统的重要基石，在自然语言处理、代码生成、多模态理解等领域发展迅速 [1] - 模型能力提升伴随计算资源与存储需求急剧增长，实现高性能与高效率并存是当前重要挑战 [1] 华为诺亚方舟实验室研究成果 - 2024年4月成功开发基于昇腾算力训练的千亿级通用语言大模型Pangu Ultra，在多个领域评测超越Llama 405B和Mistral Large 2等密集模型 [2] - 2024年5月初推出稀疏大语言模型Pangu Ultra MoE，实现在6000+块昇腾NPU上对MoE模型的长期稳定训练 [2] 5月28日技术分享会内容 CBQ量化框架 - 提出跨块重建的PTQ方法CBQ，通过跨块依赖机制建立Transformer块间长距离依赖关系，实现超低比特量化性能突破 [6] - 仅需4.3小时完成4-bit LLAMA-65B权重量化，在W4A4、W4A8量化配置下显著优于现有方法 [6] SlimLLM剪枝方法 - 提出基于整体通道/注意力头评估的结构化剪枝方法SlimLLM，在LLaMA基准测试中达到最先进性能水平 [7][8] - 采用线性回归策略快速恢复输出矩阵性能，通过层重要性比例确定剪枝率 [8] KnowTrace RAG框架 - 提出结构化知识追踪框架KnowTrace，通过构建特定知识图谱缓解LLM上下文过载问题 [9][10] - 在三个多跳问答基准测试中持续超越现有方法，支持自我引导提升机制 [10] 5月29日技术分享会内容盘古Embedded模型 - 开发具备快慢思维切换功能的盘古Embedded模型，通过迭代蒸馏微调和延迟容忍调度框架降低推理延迟 [13][14] - 在昇腾NPU上实现效率与深度的自适应协调，特别适用于移动设备等资源受限场景 [14] 盘古-Light剪枝框架 - 提出基于权重重初始化的极致剪枝框架盘古-Light，通过跨层注意力剪枝（CLAP）等技术实现激进结构化压缩 [15][16] - 剪枝后模型性能超越Minitron、PUZZLE等基线方法，较Qwen3-32B展现更优综合性能 [16] ESA注意力优化 - 提出低维压缩的高效选择性注意力方法ESA，无需微调即可实现稀疏注意力与序列长度外推 [17][18] - 通过query/key低维压缩机制和邻域影响力机制，突破长文本处理瓶颈 [18] 5月30日技术分享会内容盘古MoE大模型 - 开发昇腾原生MoE大模型Pangu Pro MoE（总参数72B，激活参数16B），采用MOGE架构解决专家负载不均衡问题 [20][21] - 通过混合并行优化、通算融合等技术提升昇腾910/310平台的推理效率 [21] PreMoe路由优化 - 提出大batchsize下专家路由优化方案PreMoe，通过概率专家剪枝（PEP）实现专家动态加载 [22][24] - 在数学、代码等任务上提升推理效率10%+，模型能力损失<2% [24] KV优化与反思压缩 - 开发无需训练的KVTuner算法实现3.25bit近似无损KV量化，基于attention机理理论分析指导推理加速 [25][26] - 提出TrimR反思压缩算法在MATH500等数据集实现70%推理效率提升，兼容vLLM社区生态 [26]