大模型开源
搜索文档
华为首个开源大模型来了!Pro MoE 720亿参数,4000颗昇腾训练
华尔街见闻· 2025-06-30 15:27
华为盘古大模型开源 - 公司首次开源盘古大模型核心能力,包括70亿参数稠密模型和720亿参数混合专家模型(盘古Pro MoE),同时开放基于昇腾的模型推理技术 [1] - 盘古Pro MoE在昇腾800I A2上实现单卡1148 tokens/s推理吞吐,通过投机加速技术可提升至1528 tokens/s,优于同等规模稠密模型 [3][11] - 开源组件包括盘古Pro MoE 72B模型权重、基础推理代码及昇腾超大规模MoE推理代码,盘古7B相关资源将于近期上线 [4] 模型架构与技术特性 - 盘古Pro MoE基于MoGE架构构建,总参数量720亿,激活参数量160亿,针对昇腾硬件优化,在昇腾300I Duo服务器上提供高性价比推理方案 [4][11] - 引入"快思考"和"慢思考"双系统,简单问题快速响应,复杂问题深度推理,专家选择采用分组机制实现跨设备负载均衡 [9] - 预训练使用4000个昇腾NPU处理13万亿tokens语料,后训练通过SFT和RL增强推理能力,采用检查点合并优化模型 [11] 性能表现与基准测试 - 在千亿参数内模型中处于领先地位,MMLU-PRO英文基准显著超越Qwen3-32B、GLM-Z1-32B等主流稠密模型及Llama4-Scout MoE模型 [12] - 中文领域C-Eval(EM)得分91.1超越Qwen3-32B(89.2),CLUEWSC(EM)94.7微幅领先Qwen3-32B(94.6) [14][15] - 代码生成MBPP+(Pass@1)达80.2接近Qwen3-32B(82.0),数学推理MATH-500得分96.8超越Qwen3-32B(96.6) [15] 行业影响与生态整合 - 公司形成昇腾NPU芯片、MindSpore框架、盘古模型的垂直整合体系,被媒体评价为"工业奇迹",提供英伟达之外的替代方案 [18] - 国产大模型开源浪潮加速,MiniMax、阿里巴巴等厂商推动模型价格下降60%-80%,华为开源有望进一步促进行业应用普及 [20] - SuperCLUE测评显示盘古72B在开源榜排名第五(58.75分),超越Qwen3-14B/8B,仅次于DeepSeek和Qwen3-32B/235B [17]
刚刚,华为发布!
中国基金报· 2025-06-30 12:05
华为开源盘古大模型 - 华为首次开源盘古大模型核心能力,包括70亿参数稠密模型和720亿参数混合专家模型[2][3] - 开源内容包括盘古Pro MoE 72B模型权重、基础推理代码以及基于昇腾的超大规模MoE模型推理代码[4] - 盘古7B相关模型权重与推理代码将于近期上线开源平台[4] - 盘古Pro MoE是昇腾原生分组混合专家模型,总参数量720亿,激活参数量160亿[4] - 盘古Pro MoE在昇腾800I A2上实现单卡1148 tokens/s推理吞吐性能,可提升至1528 tokens/s[5] - 盘古7B是灵活切换快慢思考的高效模型,实现快速响应和高质量推理的灵活切换[6] - 盘古Embedded 7B在多个复杂推理基准测试中表现优于Qwen3-8B和GLM4-9B等规模相近的领先模型[7] 盘古大模型技术优势 - 昇腾NPU支持盘古Pro MoE大规模并行训练,在千亿内总参数模型中处于领先地位[6] - 华为构建了支持超大规模集群和MoE模型的昇腾全流程高效训练系统[6] - 华为推出参数规模高达7180亿的盘古Ultra MoE模型,是全流程在昇腾AI计算平台训练的准万亿MoE模型[6] - 盘古Pro MoE在昇腾300I Duo推理服务器上实现极具性价比的模型推理方案[5] 国内大模型开源趋势 - 大模型开源加速技术创新、降低研发成本、促进知识共享[9] - 2025年国产大模型开源消息接连不断,涵盖自然语言处理、计算机视觉、多模态等多个领域[9] - 华为云发布盘古大模型5.5,在复杂推理能力、工具调用等评测中得分处于业界第一梯队[9] - 国内头部大模型厂商以算法升级促进模型性能提升,大模型价格比DeepSeek-R1降低约60%-80%[10]
华为缘何开源盘古大模型?
钛媒体APP· 2025-06-30 11:23
华为开源盘古大模型 - 公司正式开源盘古70亿参数的稠密模型和盘古Pro MoE 720亿参数的混合专家模型 盘古7B相关模型权重与推理代码将于近期上线开源平台 [2] - 盘古Pro MoE 72B模型权重和基础推理代码已上线开源平台 基于昇腾的超大规模MoE模型推理代码也已上线 [2] - 70亿参数稠密模型参数量适中 性能均衡 部署门槛较低 适用于智能客服 知识库等多种场景 [2] - 720亿参数混合专家模型具有稀疏激活 动态路由和多专家协作特性 更适合处理复杂任务 [2] 开源战略与生态建设 - 公司选择两款用量较多的模型进行开源试验 未来可能继续开源更多模型 [3] - 开源基于昇腾的模型推理技术 旨在优化国产AI基础设施适配性 提升开发者调用体验 [3] - 盘古大模型加昇腾推理技术的开源 开放了国产AI技术栈 类比DeepSeek的开源策略 [3] - 公司推出基于CloudMatrix 384超节点架构的新一代昇腾AI云服务 并发布盘古大模型5.5 [3] 技术闭环与商业价值 - 盘古大模型从训练到推理深度依赖昇腾芯片 通过技术普惠和生态友好策略将硬件嵌入AI产业链 [4] - 开发者使用盘古模型需依赖昇腾芯片算力 企业落地应用需采购昇腾服务器或云服务 [4] - 开源大量推理技术旨在扩大盘古模型调用量和落地市场 形成从模型到硬件再到场景的闭环 [4] - 政企客户推动自主创新时 昇腾加开源盘古的组合更具竞争力 [4]
百度正式开源文心大模型4.5系列模型
第一财经· 2025-06-30 11:12
百度文心大模型4.5系列开源 - 百度于6月30日正式开源文心大模型4.5系列模型 [1] - 开源系列包含10款模型 涵盖47B和3B激活参数的混合专家(MoE)模型以及0.3B参数的稠密型模型 [1] - 开源内容包括预训练权重和推理代码 [1] - 模型可在飞桨星河社区 HuggingFace等平台下载部署 [1] - 开源模型API服务可通过百度智能云千帆大模型平台使用 [1]
腾讯,大动作!
中国基金报· 2025-06-27 23:00
腾讯混元开源混合推理模型 - 腾讯混元开源首款混合推理MoE模型Hunyuan-A13B,总参数80B,激活参数13B,效果比肩同等架构领先开源模型且推理速度更快[3][4] - 该模型为业界首个13B级别开源MoE混合推理模型,在Agent工具调用和长文理解表现突出,支持快/慢思考双模式[4][5] - 模型对开发者友好,仅需1张中低端GPU卡即可部署,吞吐量达前沿开源模型的2倍以上[5] - 已融入主流推理框架生态,支持多种量化格式,日均请求超1.3亿次,400+业务调用[5] - 此次开源是继混元Large后的重要升级,参数更小但性能大幅提升,未来将推出0.5B-32B多尺寸模型[6][10] 行业开源趋势 - 2024年大模型开源成行业"必选项",全球科技巨头3月以来密集发布超10款开源模型[8] - 国内字节跳动、阿里、百度等企业加速开源,如阿里推出自主搜索AI Agent WebAgent,字节开源多模态模型BAGEL(70亿活跃参数)[9] - 开源模型通过提供预训练代码降低企业开发成本,超50%全球企业已采用开源AI技术[9][10] - 开源模型性能持续突破,Hugging Face榜单频繁刷新,企业转向"轻量化集成"开发模式[8][10] 技术细节与生态 - Hunyuan-A13B集合腾讯预训练/后训练创新技术,支持Github/Huggingface下载及腾讯云API接入[4][5] - 模型在权威测试集表现优异,多模态基础模型及插件模型将陆续开源[4][10] - 行业开源案例包括WebAgent的端到端检索能力、BAGEL的多模态理解性能(优于Qwen2.5-VL等)[9]
腾讯公司公关总监张军:腾讯混元大模型将持续开源,接下来会有多个尺寸的模型进入开源大家庭。
快讯· 2025-05-21 10:25
腾讯混元大模型开源计划 - 腾讯混元大模型将持续开源 [1] - 公司将推出多个尺寸的模型加入开源大家庭 [1]
DeepSeek和李飞飞之后,英伟达也看上阿里千问?
新浪科技· 2025-05-13 15:01
阿里通义千问大模型生态 核心观点 - 阿里通义千问大模型成为全球开源生态的核心标杆,吸引英伟达、DeepSeek、李飞飞团队等顶级机构合作,衍生模型超10万,下载量超3亿,HuggingFace占比超30% [2][4][6] - 千问3性能全面超越OpenAI、DeepSeek等闭源模型,成本仅为竞品1/3至1/20,同时提供全模态、全尺寸开源选项 [8][9][11] - 阿里宣布未来三年投入3800亿元加码AI基础设施,推动千问成为Agent开发标准,并整合淘宝、高德等业务场景加速落地 [16][17][18] 技术性能与成本优势 - 千问3在AIME25测评获81.5分(开源纪录)、LiveCodeBench突破70分超越Grok3、ArenaHard以95.6分领先OpenAI-o1 [8][9] - 英伟达基于千问2.5开发的OCR-Qwen-32B-Instruct模型在LiveCodeBench pass@1测试达61.8%,超越OpenAI闭源模型 [4][5] - 部署成本为竞品1/3,推理成本不到DeepSeek-R1三成,Claude3.7的二十分之一 [9][11] 开源生态布局 - 提供200多款开源模型覆盖文本、视觉、语音等全模态,尺寸从0.5B至235B全覆盖,支持119种语言 [11][12][13] - 千问3获SGLang、vLLM、苹果MXL等主流平台适配,英特尔、高通等芯片厂商连夜接入,形成事实上的行业标准 [15] - HuggingFace开源榜单前十均为千问衍生模型,魔搭社区推出MCP广场加速Agent应用创新 [6][15][17] 战略投入与行业影响 - 阿里三年3800亿元投资聚焦云与AI硬件,计划将AI融入所有业务环节 [16] - 千问3原生支持MCP协议,BFCL评测70.8分超越Gemini2.5-Pro,降低Agent开发门槛 [17] - 淘宝、高德等业务场景为模型提供实战训练场,AI Agent Store计划开放生态伙伴能力 [18]
访清华孙茂松:中国“强音”推大模型开源,全球大模型文化正在扭转
环球网资讯· 2025-04-30 16:51
中国大模型开源浪潮 - 中国科技公司在大模型领域掀起开源浪潮,向全球发出"强音",技术获得国际认可并扭转全球大模型文化 [1] - DeepSeek和通义千问系列开源产品推动国际大模型开源路线,突破技术垄断,促进技术平权,提升AI普惠性 [1] - 阿里通义已开源200余个模型,全球下载量超3亿次,衍生模型数超10万个,超越美国Llama成为全球第一开源模型 [2] 技术性能与国际认可 - 在国际学术研究中,许多论文基于千问模型,同等尺寸下千问小模型性能优于LLaMA [1] - 以DeepSeek、Qwen为代表的中国开源模型实现参数权重、推理逻辑和工具链条全开源,打开AI商用新局面 [2] - DeepSeek在人工智能反馈强化学习方面是开源大模型中走得最远的,将人类反馈变为人工智能反馈 [2] 小模型的价值与意义 - 小模型可降低应用成本,拓展普及度,同时帮助高校科研机构应对资源约束的研究挑战 [2] - 大模型发展越好,越能衍生优秀小模型,而小模型研究也能为大模型发展提供重要启发 [2] AI for Science前沿领域 - AI for Science成为重要突破口,大模型对复杂系统的处理能力远超传统方法 [3] - AI for Science定位为启发人类科研工作者,弥补人类思考不足或成百倍、千倍提高效率 [3] 未来发展挑战 - 中国AI领域在并驾齐驱后将面临更高层次能力考验,需提出更深刻学术思想和根本性解决方案 [4] - 需在保持技术创新的同时,注重"从0到1"原创性思想的培育和激发 [4]
(经济观察)中国大模型密集开源 影响几何?
中国新闻网· 2025-03-26 00:39
中国大模型开源现状 - 阿里云通义千问在除夕夜开源视觉模型Qwen2 5-VL,并于本月初发布开源推理模型QwQ-32B,发布当日即登顶全球主流AI开源社区Hugging Face趋势榜 [1] - DeepSeek(深度求索)在2月末连续五天发布五个代码库,并于近期开源升级后的DeepSeek-V3模型 [1] - 阶跃星辰在一个月左右时间内开源三款多模态大模型,其最新开源的图生视频模型Step-Video-TI2V支持生成运动幅度和镜头运动可控的视频,并具备特效生成能力 [1] 开源成为潮流的原因 - 端侧智能需求崛起,个人单机部署AI的需求推动端侧智能快速发展 [2] - 企业行业AI部署需求激增,通用云端大模型难以满足差异化业务场景与数据隐私保护需要,开源模型凭借灵活性和定制化能力成为企业实现差异化部署的首选 [2] - AI产业生态化进入加速时刻,出现分工协作体系,头部企业聚焦模型能力强化,中小企业基于开源模型开发细分场景应用,形成产业腰部和后市场 [2] - AI大模型能力显著提升,从“可用”进入“高可用”阶段,用户和应用进入爆发性增长时刻 [3] 开源模型的影响与成果 - 截至3月25日,通义千问开源模型Qwen系列的全球下载量已超2亿,通过开发者和中小企业深入医疗、教育、金融、电力、交通、计算机等行业 [2] - 阿里通义开源模型的衍生模型数量已突破10万个,成为全球最大的开源模型族群 [3] - 中国已成为全球开源参与者数量排名第二、增长速度最快的国家 [3] - 中国大模型借助开源大势缩小与全球领先AI技术的差距,开源生态化获得极大成功,为未来发展积蓄势能 [4]
与 00 后开源者聊 DeepSeek 开源周:一直开源最强模型,可能是不想赚钱,也可能是想推动更大变化丨开源对话#2
晚点LatePost· 2025-02-27 22:03
开源策略与趋势 - DeepSeek宣布"开源周"计划,连续5天开源5个代码库,包括训练与推理工具,比技术报告和模型权重更深度[5] - 开源正成为行业趋势,部分原闭源公司开始发布首批开源模型,OpenAI CEO称"不开源是站在历史错误一边"[5] - DeepSeek通过详细技术报告(如V3达50多页)建立行业声誉,V3作为基座模型涵盖预训练、微调等完整流程[13][15][17] 开源技术层次 - 大模型开源分为四个层次:技术报告、模型权重(HuggingFace发布)、推理框架(如vLLM)、训练框架(如字节Verl)[19][26] - vLLM推理框架GitHub星数近4万,有840多位贡献者,基于PagedAttention论文优化[20][25] - 训练框架开源较少,因涉及复杂代码规范,字节开源的Verl框架支持强化学习算法如PPO和分布式策略[26][27] 工程优化与效率 - DeepSeek创新聚焦效率提升:V3采用多令牌预测、FP8低精度训练、优化流水线并行减少闲置计算单元[40] - FlashMLA开源项目实现算子层优化,类似FlashAttention通过GPU指令重组提升矩阵运算效率[45][46][48] - 工程实现难度高,如在线训练需同时处理生成与模型更新,对底层框架能力要求极高[49][50][51] 商业考量与行业影响 - 开源策略差异源于商业模式:非盈利机构Ai2开源最强模型+数据集,商业公司可能保留核心模型[54][56] - 开源可能重构行业生态,成为技术标准,但未来AI能力极强时开源最强模型或引发滥用风险[55][59] - 公司转向开源需额外投入:代码规范(如阿里代码规约)、适配外部框架(如ESFT适配耗时一周多)[36][34][35] 社区与开发者价值 - GitHub社区活跃度可通过星数(vLLM近4万)、Issues数(数千)、PR数(数百)衡量[20][25] - 开源项目需持续维护,如DeepSeek计划整合5个库功能并修复潜在bug[52] - 开发者诉求多样,包括支持FP8精度、NPU芯片适配等,反映实际应用场景需求[52]