Workflow
昇腾算力
icon
搜索文档
A股盘前播报 | 华为开发者大会今起召开 北京发布11项举措支持游戏电竞行业发展
智通财经网· 2025-06-20 08:40
稀土行业 - 商务部表示将依法依规加快对稀土相关出口许可申请的审查,已批准一定数量的合规申请,并将持续加强合规审批工作 [1] 华为开发者大会 - 华为开发者大会6月20日至22日在东莞松山湖举行,多家上市公司将参展展示鸿蒙及AI等方面最新创新成果 [2] - 浙商证券建议关注昇腾算力、鸿蒙生态链、机器人 [2] 跨国公司投资 - 国务院副总理何立峰指出中国拥有超大规模国内市场和全球最完备产业体系,是跨国公司理想、安全、有为的投资目的地 [3] 光伏行业 - 光伏三季度将迎来更大力度减产,预计开工比例环比降低10%-15% [4] - 针对"低于成本销售"的严控政策同步落地,第三方专项审计组将进行全面审计 [4] 游戏行业 - 北京发布11项举措支持游戏电竞行业发展 [7] - 开源证券建议继续加大游戏板块配置力度,因行业产品周期向上、业绩有望迎来拐点,AI持续赋能及政策支持 [7] 人形机器人 - 宇树科技完成C轮融资交割,投前估值超100亿元 [8] - 国信证券看好人形机器人发展带来的产业升级机遇,关注总成、传感器等环节 [8] 固态电池 - 国际固态电池科技大会开幕,前沿材料与智能装备集中亮相 [9] - 江海证券预计2027年是固态电池产业快速上升期转折点,建议关注固态电池锂电设备、材料环节 [9] 公司公告 - 康达新材拟收购中科华微不低于51%股权,拓展半导体集成电路领域 [10] - 圣诺生物预计上半年净利润同比增加254%-332% [11] - 诺唯赞拟以500万元-1000万元回购公司股份 [11] - 恒帅股份正积极开拓机器人相关应用领域,但暂未形成相关订单 [11]
9位顶级研究员连讲3晚,华为盘古大模型底层研究大揭秘
机器之心· 2025-05-26 18:59
大语言模型技术发展 - 大语言模型(LLMs)已成为通用人工智能系统的重要基石,在自然语言处理、代码生成、多模态理解等领域发展迅速 [1] - 模型能力提升伴随计算资源与存储需求急剧增长,实现高性能与高效率并存是当前重要挑战 [1] 华为诺亚方舟实验室研究成果 - 2024年4月成功开发基于昇腾算力训练的千亿级通用语言大模型Pangu Ultra,在多个领域评测超越Llama 405B和Mistral Large 2等密集模型 [2] - 2024年5月初推出稀疏大语言模型Pangu Ultra MoE,实现在6000+块昇腾NPU上对MoE模型的长期稳定训练 [2] 5月28日技术分享会内容 CBQ量化框架 - 提出跨块重建的PTQ方法CBQ,通过跨块依赖机制建立Transformer块间长距离依赖关系,实现超低比特量化性能突破 [6] - 仅需4.3小时完成4-bit LLAMA-65B权重量化,在W4A4、W4A8量化配置下显著优于现有方法 [6] SlimLLM剪枝方法 - 提出基于整体通道/注意力头评估的结构化剪枝方法SlimLLM,在LLaMA基准测试中达到最先进性能水平 [7][8] - 采用线性回归策略快速恢复输出矩阵性能,通过层重要性比例确定剪枝率 [8] KnowTrace RAG框架 - 提出结构化知识追踪框架KnowTrace,通过构建特定知识图谱缓解LLM上下文过载问题 [9][10] - 在三个多跳问答基准测试中持续超越现有方法,支持自我引导提升机制 [10] 5月29日技术分享会内容 盘古Embedded模型 - 开发具备快慢思维切换功能的盘古Embedded模型,通过迭代蒸馏微调和延迟容忍调度框架降低推理延迟 [13][14] - 在昇腾NPU上实现效率与深度的自适应协调,特别适用于移动设备等资源受限场景 [14] 盘古-Light剪枝框架 - 提出基于权重重初始化的极致剪枝框架盘古-Light,通过跨层注意力剪枝(CLAP)等技术实现激进结构化压缩 [15][16] - 剪枝后模型性能超越Minitron、PUZZLE等基线方法,较Qwen3-32B展现更优综合性能 [16] ESA注意力优化 - 提出低维压缩的高效选择性注意力方法ESA,无需微调即可实现稀疏注意力与序列长度外推 [17][18] - 通过query/key低维压缩机制和邻域影响力机制,突破长文本处理瓶颈 [18] 5月30日技术分享会内容 盘古MoE大模型 - 开发昇腾原生MoE大模型Pangu Pro MoE(总参数72B,激活参数16B),采用MOGE架构解决专家负载不均衡问题 [20][21] - 通过混合并行优化、通算融合等技术提升昇腾910/310平台的推理效率 [21] PreMoe路由优化 - 提出大batchsize下专家路由优化方案PreMoe,通过概率专家剪枝(PEP)实现专家动态加载 [22][24] - 在数学、代码等任务上提升推理效率10%+,模型能力损失<2% [24] KV优化与反思压缩 - 开发无需训练的KVTuner算法实现3.25bit近似无损KV量化,基于attention机理理论分析指导推理加速 [25][26] - 提出TrimR反思压缩算法在MATH500等数据集实现70%推理效率提升,兼容vLLM社区生态 [26]