Workflow
大模型开源
icon
搜索文档
华为大模型也加入开源大军了
华尔街见闻· 2025-06-30 18:16
华为开源盘古大模型 - 公司首次开源盘古大模型 包括70亿参数的稠密模型和720亿参数的混合专家模型(MoE) 以及基于昇腾的模型推理技术 [3] - 盘古70亿参数模型采用双系统框架 具备快慢思考能力 在昇腾NPU上优化部署 在AIME GPQA等基准测试中超越Qwen3-8B GLM4-9B等同量级模型 [3] - 盘古Pro MoE 720亿参数模型引入分组机制 解决传统MoE架构负载不均衡问题 提升训练效率和推理性能 [4] 开源与闭源战略转变 - 行业出现从闭源向开源转变趋势 百度宣布文心大模型4.5系列将于6月30日起全面开源 OpenAI也表示将重新制定开源战略 [5] - 开源模式可借助全球开发者力量加速研发迭代 形成"开源生态+闭源核心"的混合模式可能成为主流 [4][5] - 开源有助于吸引开发者 加速技术普及 形成良性循环 闭源则依靠技术壁垒快速盈利 [4][5] 昇腾生态战略 - 公司开源盘古大模型是昇腾生态战略的关键举措 旨在推动AI技术应用与创新 [3] - 基于CloudMatrix 384超节点的新一代昇腾AI云服务上线 单卡推理吞吐量达2300 Tokens/s 提升近4倍 [8] - 超节点架构支持384个专家并行推理 算力有效使用率提升50%以上 为大模型应用提供强大算力支持 [8] - 开源盘古大模型本质是为昇腾生态引流 形成"模型-应用-硬件"的生态闭环 [7][9] 行业影响 - 开源大模型可加速AI在千行百业的应用与价值创造 [3] - DeepSeek的开源成功冲击了OpenAI等厂商的市场地位 彰显开源价值 [4] - 2025年是开源模型快速进步的一年 公司加入开源大军有助于在全球AI竞争中占据主动 [10]
从文心开源谈起,论大模型发展新生态
AI科技大本营· 2025-06-30 17:52
百度开源文心4.5系列模型 - 公司正式开源ERNIE 4.5系列模型,包括47B和3B参数的MoE模型以及0.3B参数的稠密模型,实现预训练权重和推理代码完全开源 [1] - 开源模型国内下载地址已公布,标志着公司在开放生态、开发工具、模型训练方法及长文本能力等方面的全面进化 [1] - 文心团队创新性提出多模态异构模型结构,通过跨模态参数共享机制实现知识融合,同时保留单一模态专用参数空间,显著增强多模态理解能力 [1] - 此次开源面向全球开发者,提供从模型能力到训练方式再到部署支持的完整交付,旨在打造国际开发者可用的国产大模型代表 [1] 行业专家深度解读 - CSDN邀请AI行业知名专家范凯、北京智源人工智能研究院郑靖舒及Boolan首席技术顾问李沫南,围绕文心大模型开源及行业发展趋势进行深度解读 [2][3][4] - 范凯为AI+Web3领域超级个体,拥有8年AI研发及14年CTO经验,曾任职CSDN&丁香园CTO [2] - 郑靖舒专注于评测体系构建与工具研发,主导智源大模型评测体系产品化,参与国内外评测标准制定 [3] - 李沫南作为资深大模型技术专家,将主持此次直播讨论 [4] 行业热点议题 - 深度解读文心开源事件,分析公司技术底牌展示对行业的影响 [5] - 探讨AI技术从实验室走向实际应用的路径及行业逻辑变化 [5] - 讨论大模型价格战终局可能性及免费模式的可行性 [5] - 评估公司在AI生态战争中的全栈技术布局优势 [5]
华为首个开源大模型来了!Pro MoE 720亿参数,4000颗昇腾训练
华尔街见闻· 2025-06-30 15:27
华为盘古大模型开源 - 公司首次开源盘古大模型核心能力,包括70亿参数稠密模型和720亿参数混合专家模型(盘古Pro MoE),同时开放基于昇腾的模型推理技术 [1] - 盘古Pro MoE在昇腾800I A2上实现单卡1148 tokens/s推理吞吐,通过投机加速技术可提升至1528 tokens/s,优于同等规模稠密模型 [3][11] - 开源组件包括盘古Pro MoE 72B模型权重、基础推理代码及昇腾超大规模MoE推理代码,盘古7B相关资源将于近期上线 [4] 模型架构与技术特性 - 盘古Pro MoE基于MoGE架构构建,总参数量720亿,激活参数量160亿,针对昇腾硬件优化,在昇腾300I Duo服务器上提供高性价比推理方案 [4][11] - 引入"快思考"和"慢思考"双系统,简单问题快速响应,复杂问题深度推理,专家选择采用分组机制实现跨设备负载均衡 [9] - 预训练使用4000个昇腾NPU处理13万亿tokens语料,后训练通过SFT和RL增强推理能力,采用检查点合并优化模型 [11] 性能表现与基准测试 - 在千亿参数内模型中处于领先地位,MMLU-PRO英文基准显著超越Qwen3-32B、GLM-Z1-32B等主流稠密模型及Llama4-Scout MoE模型 [12] - 中文领域C-Eval(EM)得分91.1超越Qwen3-32B(89.2),CLUEWSC(EM)94.7微幅领先Qwen3-32B(94.6) [14][15] - 代码生成MBPP+(Pass@1)达80.2接近Qwen3-32B(82.0),数学推理MATH-500得分96.8超越Qwen3-32B(96.6) [15] 行业影响与生态整合 - 公司形成昇腾NPU芯片、MindSpore框架、盘古模型的垂直整合体系,被媒体评价为"工业奇迹",提供英伟达之外的替代方案 [18] - 国产大模型开源浪潮加速,MiniMax、阿里巴巴等厂商推动模型价格下降60%-80%,华为开源有望进一步促进行业应用普及 [20] - SuperCLUE测评显示盘古72B在开源榜排名第五(58.75分),超越Qwen3-14B/8B,仅次于DeepSeek和Qwen3-32B/235B [17]
刚刚,华为发布!
中国基金报· 2025-06-30 12:05
华为开源盘古大模型 - 华为首次开源盘古大模型核心能力,包括70亿参数稠密模型和720亿参数混合专家模型[2][3] - 开源内容包括盘古Pro MoE 72B模型权重、基础推理代码以及基于昇腾的超大规模MoE模型推理代码[4] - 盘古7B相关模型权重与推理代码将于近期上线开源平台[4] - 盘古Pro MoE是昇腾原生分组混合专家模型,总参数量720亿,激活参数量160亿[4] - 盘古Pro MoE在昇腾800I A2上实现单卡1148 tokens/s推理吞吐性能,可提升至1528 tokens/s[5] - 盘古7B是灵活切换快慢思考的高效模型,实现快速响应和高质量推理的灵活切换[6] - 盘古Embedded 7B在多个复杂推理基准测试中表现优于Qwen3-8B和GLM4-9B等规模相近的领先模型[7] 盘古大模型技术优势 - 昇腾NPU支持盘古Pro MoE大规模并行训练,在千亿内总参数模型中处于领先地位[6] - 华为构建了支持超大规模集群和MoE模型的昇腾全流程高效训练系统[6] - 华为推出参数规模高达7180亿的盘古Ultra MoE模型,是全流程在昇腾AI计算平台训练的准万亿MoE模型[6] - 盘古Pro MoE在昇腾300I Duo推理服务器上实现极具性价比的模型推理方案[5] 国内大模型开源趋势 - 大模型开源加速技术创新、降低研发成本、促进知识共享[9] - 2025年国产大模型开源消息接连不断,涵盖自然语言处理、计算机视觉、多模态等多个领域[9] - 华为云发布盘古大模型5.5,在复杂推理能力、工具调用等评测中得分处于业界第一梯队[9] - 国内头部大模型厂商以算法升级促进模型性能提升,大模型价格比DeepSeek-R1降低约60%-80%[10]
华为缘何开源盘古大模型?
钛媒体APP· 2025-06-30 11:23
华为开源盘古大模型 - 公司正式开源盘古70亿参数的稠密模型和盘古Pro MoE 720亿参数的混合专家模型 盘古7B相关模型权重与推理代码将于近期上线开源平台 [2] - 盘古Pro MoE 72B模型权重和基础推理代码已上线开源平台 基于昇腾的超大规模MoE模型推理代码也已上线 [2] - 70亿参数稠密模型参数量适中 性能均衡 部署门槛较低 适用于智能客服 知识库等多种场景 [2] - 720亿参数混合专家模型具有稀疏激活 动态路由和多专家协作特性 更适合处理复杂任务 [2] 开源战略与生态建设 - 公司选择两款用量较多的模型进行开源试验 未来可能继续开源更多模型 [3] - 开源基于昇腾的模型推理技术 旨在优化国产AI基础设施适配性 提升开发者调用体验 [3] - 盘古大模型加昇腾推理技术的开源 开放了国产AI技术栈 类比DeepSeek的开源策略 [3] - 公司推出基于CloudMatrix 384超节点架构的新一代昇腾AI云服务 并发布盘古大模型5.5 [3] 技术闭环与商业价值 - 盘古大模型从训练到推理深度依赖昇腾芯片 通过技术普惠和生态友好策略将硬件嵌入AI产业链 [4] - 开发者使用盘古模型需依赖昇腾芯片算力 企业落地应用需采购昇腾服务器或云服务 [4] - 开源大量推理技术旨在扩大盘古模型调用量和落地市场 形成从模型到硬件再到场景的闭环 [4] - 政企客户推动自主创新时 昇腾加开源盘古的组合更具竞争力 [4]
百度正式开源文心大模型4.5系列模型
第一财经· 2025-06-30 11:12
百度文心大模型4.5系列开源 - 百度于6月30日正式开源文心大模型4.5系列模型 [1] - 开源系列包含10款模型 涵盖47B和3B激活参数的混合专家(MoE)模型以及0.3B参数的稠密型模型 [1] - 开源内容包括预训练权重和推理代码 [1] - 模型可在飞桨星河社区 HuggingFace等平台下载部署 [1] - 开源模型API服务可通过百度智能云千帆大模型平台使用 [1]
腾讯,大动作!
中国基金报· 2025-06-27 23:00
腾讯混元开源混合推理模型 - 腾讯混元开源首款混合推理MoE模型Hunyuan-A13B,总参数80B,激活参数13B,效果比肩同等架构领先开源模型且推理速度更快[3][4] - 该模型为业界首个13B级别开源MoE混合推理模型,在Agent工具调用和长文理解表现突出,支持快/慢思考双模式[4][5] - 模型对开发者友好,仅需1张中低端GPU卡即可部署,吞吐量达前沿开源模型的2倍以上[5] - 已融入主流推理框架生态,支持多种量化格式,日均请求超1.3亿次,400+业务调用[5] - 此次开源是继混元Large后的重要升级,参数更小但性能大幅提升,未来将推出0.5B-32B多尺寸模型[6][10] 行业开源趋势 - 2024年大模型开源成行业"必选项",全球科技巨头3月以来密集发布超10款开源模型[8] - 国内字节跳动、阿里、百度等企业加速开源,如阿里推出自主搜索AI Agent WebAgent,字节开源多模态模型BAGEL(70亿活跃参数)[9] - 开源模型通过提供预训练代码降低企业开发成本,超50%全球企业已采用开源AI技术[9][10] - 开源模型性能持续突破,Hugging Face榜单频繁刷新,企业转向"轻量化集成"开发模式[8][10] 技术细节与生态 - Hunyuan-A13B集合腾讯预训练/后训练创新技术,支持Github/Huggingface下载及腾讯云API接入[4][5] - 模型在权威测试集表现优异,多模态基础模型及插件模型将陆续开源[4][10] - 行业开源案例包括WebAgent的端到端检索能力、BAGEL的多模态理解性能(优于Qwen2.5-VL等)[9]
腾讯公司公关总监张军:腾讯混元大模型将持续开源,接下来会有多个尺寸的模型进入开源大家庭。
快讯· 2025-05-21 10:25
腾讯混元大模型开源计划 - 腾讯混元大模型将持续开源 [1] - 公司将推出多个尺寸的模型加入开源大家庭 [1]
DeepSeek和李飞飞之后,英伟达也看上阿里千问?
新浪科技· 2025-05-13 15:01
阿里通义千问大模型生态 核心观点 - 阿里通义千问大模型成为全球开源生态的核心标杆,吸引英伟达、DeepSeek、李飞飞团队等顶级机构合作,衍生模型超10万,下载量超3亿,HuggingFace占比超30% [2][4][6] - 千问3性能全面超越OpenAI、DeepSeek等闭源模型,成本仅为竞品1/3至1/20,同时提供全模态、全尺寸开源选项 [8][9][11] - 阿里宣布未来三年投入3800亿元加码AI基础设施,推动千问成为Agent开发标准,并整合淘宝、高德等业务场景加速落地 [16][17][18] 技术性能与成本优势 - 千问3在AIME25测评获81.5分(开源纪录)、LiveCodeBench突破70分超越Grok3、ArenaHard以95.6分领先OpenAI-o1 [8][9] - 英伟达基于千问2.5开发的OCR-Qwen-32B-Instruct模型在LiveCodeBench pass@1测试达61.8%,超越OpenAI闭源模型 [4][5] - 部署成本为竞品1/3,推理成本不到DeepSeek-R1三成,Claude3.7的二十分之一 [9][11] 开源生态布局 - 提供200多款开源模型覆盖文本、视觉、语音等全模态,尺寸从0.5B至235B全覆盖,支持119种语言 [11][12][13] - 千问3获SGLang、vLLM、苹果MXL等主流平台适配,英特尔、高通等芯片厂商连夜接入,形成事实上的行业标准 [15] - HuggingFace开源榜单前十均为千问衍生模型,魔搭社区推出MCP广场加速Agent应用创新 [6][15][17] 战略投入与行业影响 - 阿里三年3800亿元投资聚焦云与AI硬件,计划将AI融入所有业务环节 [16] - 千问3原生支持MCP协议,BFCL评测70.8分超越Gemini2.5-Pro,降低Agent开发门槛 [17] - 淘宝、高德等业务场景为模型提供实战训练场,AI Agent Store计划开放生态伙伴能力 [18]
访清华孙茂松:中国“强音”推大模型开源,全球大模型文化正在扭转
环球网资讯· 2025-04-30 16:51
中国大模型开源浪潮 - 中国科技公司在大模型领域掀起开源浪潮,向全球发出"强音",技术获得国际认可并扭转全球大模型文化 [1] - DeepSeek和通义千问系列开源产品推动国际大模型开源路线,突破技术垄断,促进技术平权,提升AI普惠性 [1] - 阿里通义已开源200余个模型,全球下载量超3亿次,衍生模型数超10万个,超越美国Llama成为全球第一开源模型 [2] 技术性能与国际认可 - 在国际学术研究中,许多论文基于千问模型,同等尺寸下千问小模型性能优于LLaMA [1] - 以DeepSeek、Qwen为代表的中国开源模型实现参数权重、推理逻辑和工具链条全开源,打开AI商用新局面 [2] - DeepSeek在人工智能反馈强化学习方面是开源大模型中走得最远的,将人类反馈变为人工智能反馈 [2] 小模型的价值与意义 - 小模型可降低应用成本,拓展普及度,同时帮助高校科研机构应对资源约束的研究挑战 [2] - 大模型发展越好,越能衍生优秀小模型,而小模型研究也能为大模型发展提供重要启发 [2] AI for Science前沿领域 - AI for Science成为重要突破口,大模型对复杂系统的处理能力远超传统方法 [3] - AI for Science定位为启发人类科研工作者,弥补人类思考不足或成百倍、千倍提高效率 [3] 未来发展挑战 - 中国AI领域在并驾齐驱后将面临更高层次能力考验,需提出更深刻学术思想和根本性解决方案 [4] - 需在保持技术创新的同时,注重"从0到1"原创性思想的培育和激发 [4]