Workflow
华为盘古大模型5.5
icon
搜索文档
刚刚,华为盘古大模型5.5问世!推理、智能体能力大爆发
机器之心· 2025-06-20 19:59
华为盘古大模型5.5发布 - 华为在HDC 2025开发者大会上发布盘古大模型5.5版本,其NLP能力比肩国际一流模型,并在多模态世界模型方面实现全国首创[3] - 新版本包含五大基础模型,分别面向NLP、多模态、预测、科学计算、CV领域,推动行业数智化转型[4] - 盘古系列模型坚持"不作诗,只做事"理念,从1.0到5.5版本持续深耕行业应用,获得市场广泛认可[2] NLP领域三大核心模型 盘古Ultra MoE - 7180亿参数的MoE深度思考模型,达到准万亿级别,基于昇腾全栈软硬件协同打造[9][10] - 采用Depth-Scaled Sandwich-Norm架构和TinyInit小初始化方法,实现10+T token数据的长期稳定训练[12] - 具备高效长序列、高效思考、DeepDiver、低幻觉等核心能力,在知识推理等领域榜单位列前沿[13] 盘古Pro MoE - 72B A16B模型,在SuperCLUE榜单千亿参数量以内模型中并列国内第一[16][18] - 针对昇腾硬件特性优化设计,在300I Duo芯片上实现每秒321 token吞吐量,800I A2芯片上达1529 token/秒[21][23] - 采用分组混合专家MoGE算法,解决跨芯片负载不均衡问题,吞吐效率领先同规模模型15%以上[22][23] 盘古Embedding - 7B级小模型在学科知识、编码、数学和对话能力方面优于同期同规模模型[27] - 通过渐进式SFT和多维度奖励强化学习提升推理能力,优化长序列处理达100万token上下文[29][32] - 采用自适应快慢思考合一技术,根据问题难度自动切换模式,整体推理效率提升高达8倍[35][37] 其他领域创新 预测大模型 - 采用业界首创triplet transformer统一预训练架构,提升跨行业泛化性和预测精度[47] 科学计算大模型 - 与深圳气象局合作升级"智霁"模型,首次实现AI集合预报,减少单一模型误差[47] CV大模型 - 发布300亿参数视觉大模型,支持多维度泛视觉感知分析,构建工业场景稀缺样本库[47] 多模态大模型 - 推出世界模型为智能驾驶等构建数字物理空间,可生成训练数据降低路采成本[47] 深度研究能力 - 推出开放域信息获取Agent盘古DeepDiver,7B模型实现接近超大模型效果[41] - 通过合成交互数据和渐进式奖励策略优化,5分钟内完成10跳复杂问答并生成万字报告[42][43] - 增强模型自主规划、探索、反思等高阶能力,提升在科学助手等场景的应用效果[39][44]