混合专家模型（MoE） - 财报，业绩电话会，研报，新闻 -

混合专家模型（MoE）

搜索文档

冲破 AGI 迷雾，蚂蚁看到了一个新路标

雷峰网· 2025-09-16 18:20

大模型发展瓶颈 - 数据压榨已到尽头 AGI实现面临突破难题 [2][4] - 自回归范式存在单向建模缺陷导致模型无法逆向推理和修正错误 [16][17][18] - 出现人名截断语义颠倒医疗诊断左右混淆等基础错误 [13][15] 当前技术迭代方向 - 马斯克提出提纯数据方案尝试打开AGI大门 [5] - 多模态成为重点研究方向 Open AI发布GPT-4o实现多模态感知 [7][8] - 斯坦福李飞飞提出视觉是智能基石的观点 [8] 扩散模型新范式突破 - 蓝振忠与李崇轩合作推出LLaDA-MoE模型基于扩散理论架构 [12][50] - 扩散模型具备并行解码双向建模和迭代修正三大优势 [32][33][34][35] - 模型在20T高质量数据上训练总参数量7B 激活参数量1.4B [63][66] 技术性能表现 - LLaDA-MoE在MMLU测试中获得67.18分超越LLaDA1.0的65.50分 [71] - 在数学任务GSM8K测试中获得82.41分接近Qwen2.5-3B的86.28分 [71] - 代码任务MultiPL-E测试中获得52.53分显著优于LLaDA1.0的29.08分 [71] 行业发展意义 - 首次验证MoE架构在扩散语言模型上的放大效应 [71] - 为行业提供全新技术路径打破自回归范式垄断 [54][72] - 蚂蚁集团开源模型权重和推理引擎推动社区共同发展 [74][77] 未来挑战 - 生成速度需提升当前扩散模型每秒仅50token 远低于自回归300token [72] - 更大规模扩展仍需突破包括block diffusion等技术难题 [72] - 需要更多研究人员参与加速扩散语言模型生态建设 [73][78]

自回归（AR）生成范式

混合专家模型（MoE）

Artificial Intelligence

自回归（AR）生成范式

混合专家模型（MoE）

Artificial Intelligence

字节跳动：2025年思考模型Seed-Thinking-v1.5技术报告

搜狐财经· 2025-08-22 17:20

模型性能表现 - 在AIME 2024数学竞赛基准测试中获得86.7分，与OpenAI o3-mini-high持平，显著超越DeepSeek R1的79.8分 [1][5][47] - Codeforces编程测试中pass@8指标达55.0分，接近Gemini 2.5 Pro的56.3分，但落后于OpenAI o3-mini-high的67.5分 [1][5][47] - GPQA科学推理测试获得77.3分，接近o3-mini-high的79.7分 [1][5][47] - 在非推理任务的人类评估中，整体胜率较DeepSeek R1高出8.0% [1][5][51] 模型架构特性 - 采用混合专家模型（MoE）架构，激活参数200亿，总参数2000亿，属于相对紧凑的推理模型 [1][5] - 基于链式思维（CoT）数据进行监督微调，过多非CoT数据会降低模型探索能力 [1][10] - 强化学习训练数据包含STEM问题、代码任务、逻辑推理和非推理数据四类，其中数学数据展现强泛化能力 [1][10][15] 技术创新突破 - 开发VAPO和DAPO框架分别针对演员-评论家及策略梯度范式，解决RL训练不稳定性问题 [1][11][38] - 设计Streaming Rollout System（SRS）缓解长响应生成滞后问题，结合混合精度调度和三层次并行架构提升训练效率 [2][42][43] - 推出Seed-Thinking-Verifier验证器，在人工标注测试集上准确率达99.3%，显著优于Seed-Verifier的82.7% [28][30][31] 基准测试体系 - 构建BeyondAIME高级数学基准，包含100道难度不低于AIME最高水平的原创题目，模型在该基准表现48.0%，落后于o3-mini-high的63.6% [11][25][47] - Codeforces评估采用最近12场竞赛题目，报告pass@1和pass@8指标，更贴合实际用户提交模式 [11][47] - 内部代码沙箱环境实现离线评估与官方平台判决结果强相关性 [20][21] 训练方法论 - 监督微调使用40万训练实例（30万可验证问题+10万非可验证问题），采用32,000令牌长度截断和余弦学习率衰减策略 [34][36] - 强化学习融合可验证数据（验证器评分）、通用数据（奖励模型评分）和混合数据三类来源，通过在线数据分布适配技术减少域间干扰 [37][39] - 采用动态采样、长度自适应GAE和Token级损失等技术创新保障训练稳定性 [40] 资源优化方案 - 混合分布式训练框架整合张量并行（TP）、专家并行（EP）和上下文并行（CP），结合FSDP实现内存优化 [43][46] - 通过层间重计算、激活卸载和优化器卸载技术支持更大微批次训练 [46] - 自动调优系统（AutoTuner）基于性能画像动态选择最优并行配置 [46]

混合专家模型（MoE）

强化学习（RL）

Seed1.5-Thinking

混合专家模型（MoE）

强化学习（RL）

Seed1.5-Thinking

从GPT-2到gpt-oss，深度详解OpenAI开放模型的进化之路

机器之心· 2025-08-18 13:15

模型架构演进 - gpt-oss-120b和gpt-oss-20b是OpenAI自2019年GPT-2后首次发布的开放权重模型，支持本地运行[4][7] - 模型架构延续主流LLM设计，但包含多项优化：移除Dropout、RoPE取代绝对位置嵌入、SwiGLU取代GELU、混合专家(MoE)模块等[17][20][27][37] - 采用分组查询注意力(GQA)和滑动窗口注意力提升计算效率，窗口大小仅128 token[41][47][51] - 使用RMSNorm替代LayerNorm降低计算成本，更适合大规模LLM[52][56] 性能优化技术 - MXFP4量化方案使gpt-oss-20b可在16GB显存GPU运行，120b版本需80GB H100[10][97][99] - 推理工作量分级控制（低/中/高）动态调节响应长度和准确率[94][96] - MoE设计采用32专家/4活跃专家配置，专家参数占比超90%[39][72][77] - 注意力机制引入偏差单元和sinks增强长上下文稳定性[83][87] 行业竞品对比 - 与Qwen3相比：gpt-oss宽度更大（嵌入维度2880vs2048），但深度仅24层vs48层[67][69][70] - 基准测试显示gpt-oss-120b性能接近Qwen3 235B，但参数量仅一半[107][113] - 两者均采用Apache 2.0许可，但gpt-oss未公开训练代码和数据集[88] - 推理能力突出但存在幻觉倾向，设计侧重工具集成而非事实记忆[107][108] 技术趋势观察 - Transformer仍是LLM核心架构，改进多来自数据/算法调整而非架构革命[13] - 模型轻量化需求推动量化技术发展（如MXFP4）[97][99] - 行业向稀疏化（MoE）、注意力优化（GQA/滑动窗口）方向演进[37][41][47] - 开源模型与专有模型性能差距显著缩小[110][114]

混合专家模型（MoE）

分组查询注意力（GQA）

Transformer架构

Artificial Intelligence

混合专家模型（MoE）

分组查询注意力（GQA）

Transformer架构

Artificial Intelligence

赛道Hyper | 追平全球顶级：千问3推理模型开源

华尔街见闻· 2025-08-06 16:06

模型技术特点 - 阿里巴巴开源千问3推理模型采用混合专家MoE架构，总参数达480B（4800亿），原生支持256K token上下文并可扩展至1M长度，显著提升编程任务效率 [1] - MoE架构通过分工协作提升性能并控制计算成本，适用于千亿级以上参数规模模型，实现效率与复杂需求的平衡 [1] - 模型在知识储备、编程能力、数学运算等维度与Gemini-2.5 pro、o4-mini等全球顶级闭源模型水平相当 [1][3] - 支持256K上下文长度，可处理长篇文档和多轮对话，避免关键信息丢失，在复杂问题拆解分析、流畅度和精准度方面较前代明显提升 [3] - Qwen3-235B-A22B-Instruct-2507（非思考版）在GPQA知识测评、AIME25数学测评中成绩超过Claude4等闭源模型 [3] - 训练使用36T tokens数据集覆盖书籍、代码库等多类型数据，通过多轮强化学习整合非思考与思考模型优化综合性能 [9] 性能表现与行业地位 - 在知识测评（SuperGPQA）、编程能力测评（LiveCodeBench v6）中表现接近顶尖闭源模型，在开源模型中处于前列 [3][4] - Qwen3-Coder在多语言SWE-bench测试中超过GPT4.1和Claude4，登顶HuggingFace模型总榜，该榜单综合下载量、使用频率和用户评分排名 [4][5] - 阿里已开源300余款通义大模型，衍生模型数量超过14万个，超过Meta的Llama系列，成为全球最大开源模型家族 [5] - 截至7月25日，千问API调用量在OpenRouter平台突破1000亿Tokens，包揽全球趋势榜前三，反映其受欢迎程度 [6] 实际应用与行业影响 - 程序员借助模型生成基础品牌官网最快仅需5分钟，新入行程序员效率可达到资深程序员一周工作量 [5] - 衍生模型经开发者微调后应用于教育、金融、医疗等行业，例如教育领域生成个性化习题，金融领域进行风险评估 [6] - 模型在法律行业可辅助审查长篇合同并提炼条款风险点，在科研领域快速抓取论文核心内容，节省人工时间 [7] - 开源模型允许中国企业免费商用，降低中小企业AI应用门槛，同时向美国、法国、德国等国家开放，推动技术全球普及 [6] 技术生态与商业协同 - 企业常将模型与阿里云数据库、安全服务打包采购，形成生态闭环，提升云产品使用深度与客户粘性 [6][7] - 模型开源属性降低使用成本，吸引中小开发团队，同时带动对GPU资源和IaaS服务的持续需求 [6][7] - Qwen3-Coder吸引二次开发，开发者添加特定行业代码库（如金融科技）并优化响应速度，适应实时编程场景 [10] - 通义大模型家族推动AI技术从实验室走向实际生产，为各行业提升效率 [10]

混合专家模型（MoE）

千问3推理模型

混合专家模型（MoE）

千问3推理模型

DeepSeek再出手！R1升级版性能大提升，美国对手慌了？

金十数据· 2025-05-30 11:52

模型升级内容 - 公司完成DeepSeek R1模型小版本升级主要强化语义理解精准性复杂逻辑推理能力长文本处理稳定性 [1] - 网友测评显示模型理解能力显著提升激活参数部分可制作交互动画展示关键信息逻辑更清晰 [1] - 编程能力大幅提升可一次性生成1000多行无错误代码性能接近Claude 4 [1] - Hugging Face研究员指出升级后模型在减少幻觉方面有重大改进显示与顶级模型竞争实力 [1] 模型性能对比 - DeepSeek-V3-0324模型在数学代码类评测集上超越GPT-4 5和Claude-3 7-Sonnet [1] - V3模型性价比极高输入价格为Claude-3 7-Sonnet的1/11 GPT-4 5的1/277 且开源可免费商用 [1] - R1-0528版本在LiveCodeBench代码生成排行榜中略低于OpenAI o4 mini和o3推理模型但超过xAI Grok 3 mini和阿里巴巴Qwen 3 [2] 市场影响 - R1模型1月发布时因多项指标优于西方竞争对手引发全球关注导致科技股暴跌 [2] - V3模型发布后市场热度下降焦点转向未发布的R2模型 [2] - R1-0528版本发布再次引发全球媒体关注被指加剧与OpenAI等美国竞争对手的竞争 [2] - 低成本高性能R1模型推动中国科技股上涨显示市场对中国AI能力的乐观预期 [2] 未来产品规划 - R2模型预计采用混合专家模型(MoE) 参数量达1 2万亿单位推理成本较GPT-4大幅降低 [2] - 公司尚未正式确认R2模型发布时间 [2]

Seek .(US:SKLTY)

混合专家模型（MoE）

Artificial Intelligence

OpenAI o3推理模型

xAI Grok 3 mini

阿里巴巴Qwen 3

混合专家模型（MoE）

Artificial Intelligence

OpenAI o3推理模型

xAI Grok 3 mini

阿里巴巴Qwen 3

中金 • 联合研究 | AI十年展望（二十三）：AI+陪伴：技术降本×场景升维，提供深度情绪价值

中金点睛· 2025-05-30 07:39

行业概览 - AI陪伴是目前落地较快、热度较高的AI应用赛道，CharacterAI和Talkie率先达到千万MAU级别 [1] - 2023年全球AI陪伴市场规模约3000万美元，2030年基准/乐观情形下有望达700亿/1500亿美元，2024-2030年CAGR分别为200%/236% [7] - 2018-2023年AI陪伴产品MAU增长近30倍，从不足50万扩大至约1500万，渗透率增速高于社交媒体和在线游戏 [7] 产品核心要素 - 拟人化、个性化、实时互动、沉浸感和养成感是关键要素，满足陪伴、娱乐、幻想和效率提升需求 [2] - 用户集中于年轻群体，对AI容错率较高，更关注情感体验而非精准答复 [8] - 国内应用中星野DAU持续领先（2023年10月-2025年5月从10万增至141万），猫箱增长强劲（2024年3月-2025年5月从0.2万增至109万） [10] 技术驱动 - 混合专家模型（MoE）降低推理成本，DeepSeek-V3实现每人每天1小时交互成本约0.1元，通过缓存和错峰可压缩至0.03-0.05元/人天 [22] - 线性注意力机制将长文本处理复杂度从二次方降为线性，MiniMax-01在128K以上长度测试中超越主流模型 [24] - 多模态能力（图像/音频/视频生成）提升沉浸感，CharacterAI和星野已推出语音交互功能，端到端多模态架构如Gemini和GPT-4o带来效果跃升 [30] 典型应用案例 - **Replika**：全球最早商业化成功的AI陪伴应用，定位情感支持，2024年8月注册用户超3000万，已盈利 [33][35] - **CharacterAI**：技术驱动型，2024年8月MAU达2200万，创始团队来自谷歌LaMDA，采用通用Chatbot视角设计产品 [36][37] - **MiniMax星野**：引入卡牌机制和UGC社区生态，30日用户留存率从2023年10月的39%升至2024年10月的60%以上 [15][43] - **筑梦岛**：聚焦小说场景，80%为女性用户，用户日均对话超120轮，2025年1月注册用户近500万 [44][46] - **字节猫箱**：短剧化+公域社交设计，2024年9月下载量居国内市场第一，累计超500万次 [49][50] - **自然选择EVE**：3D AI伴侣，配备自研情感对话模型Vibe和记忆模型Echo，拟真度高 [53][54] 未来趋势 - 玩法创新是关键胜负手，延展方向包括硬件载体（如AI玩具）、垂直场景（教育/游戏）、用户群体拓展（老人/儿童） [64][65] - AI或成为内容网络中心，传统社交关系弱化，可能出现AI时代的"抖音" [59] - 当前挑战包括技术瓶颈（长时记忆/多智能体协同）、用户留存率低、商业化模式不成熟及算力成本高 [63]

混合专家模型（MoE）

线性化注意力模型

混合专家模型（MoE）

线性化注意力模型

DeepSeek R1模型完成“小版本试升级”，编程、逻辑理解上了一个层次！

华尔街见闻· 2025-05-29 08:57

DeepSeek R1模型更新 - DeepSeek发布R1模型小版本试升级更新内容包括语义理解精准性、复杂逻辑推理、长文本处理稳定性等方面的强化 [1][2] - 用户测评显示模型理解能力显著提升可制作交互动画展示激活参数关键信息逻辑清晰 [3] - 编程能力大幅增强可一次性生成1000多行无bug代码性能媲美Claude 4 [4][5] DeepSeek-V3模型表现 - DeepSeek-V3-0324模型全面超越Claude-3.7-Sonnet 在数学和代码类评测中超过GPT-4.5 [6] - 新版DeepSeek-V3与Grok-3并列传统对话类模型榜首推理任务表现突出 [6] - 性价比优势显著输入价格仅为Claude-3.7-Sonnet的1/11、GPT-4.5的1/277 且开源免费商用 [6][7] R1模型市场影响 - R1模型性能优于西方竞争对手成本仅数百万美元采用低版本英伟达芯片 [7] - R1的崛起引发全球科技股暴跌市场质疑巨头高投入AI模型的必要性 [8] R2模型预期与进展 - R2原计划5月初发布目标提升代码生成能力支持多语言推理 [9] - 公司联合清华大学提出SPCT学习方法构建DeepSeek-GRM系列模型引入元奖励模型提升推理扩展性 [9] - 传闻R2将采用混合专家模型参数量达1.2万亿较R1提升约1倍单位推理成本较GPT-4降低97.4% [10] - R2训练全程使用昇腾910B芯片集群计算性能512 PetaFLOPS 芯片利用率82% 性能达A100集群的91% [10] 市场反应与猜测 - V3模型升级后公司热度下降市场关注焦点转向R2发布 [9] - 社交媒体猜测R1小升级可能意味着R2尚未准备好 [11]

混合专家模型（MoE）

自我原则点评调优（SPCT）

元奖励模型（meta RM）

Artificial Intelligence

DeepSeek R1模型

混合专家模型（MoE）

自我原则点评调优（SPCT）

元奖励模型（meta RM）

Artificial Intelligence

DeepSeek R1模型

华为盘古首次露出，昇腾原生72B MoE架构，SuperCLUE千亿内模型并列国内第一

华尔街见闻· 2025-05-29 08:57

混合专家模型技术突破 - 华为盘古团队提出分组混合专家模型（MoGE），通过专家分组机制实现跨设备计算负载均衡，在4K昇腾大规模集群上高效训练 [1] - MoGE架构下盘古Pro MoE大模型（72B总参数/16B激活参数）在昇腾300I Duo和800I A2平台分别实现321 tokens/s和1528 tokens/s的推理速度 [1] - 传统MoE存在专家激活频次高度不均衡问题，导致系统效率瓶颈，而MoGE通过硬约束负载均衡策略解决这一行业难题 [6][7] 模型性能表现 - 盘古Pro MoE以72B总参数量在SuperCLUE榜单获得58.75分，千亿参数量以内大模型排行并列国内第一 [2][3] - 在MMLU-Pro（5-shot）测试中得分63.5，显著高于同规模稠密模型GLM4（55.8）和Gemma3（50.3） [24] - 中文能力突出，在C-Eval（5-shot）和CMMLU（5-shot）分别取得90.6和89.0的EM分数，领先多数对比模型 [24] 技术创新细节 - 采用分组均衡路由技术，将专家均匀划分为M组，每组独立进行Top-K路由，确保组间负载差异为0 [16] - 引入Batch级辅助均衡损失函数，超参数α控制强度，f_i表示批次中被路由到专家i的token占比 [14] - 通过三层架构仿真策略（粗粒度筛选→候选集缩减→算子级仿真）优化昇腾平台亲和性 [15] 硬件适配优化 - 深度融合昇腾300I Duo/800I A2硬件加速架构特性，实现混合并行与通信优化等软硬协同创新 [18] - 在昇腾300I Duo平台单卡吞吐达201 tokens/s，经MTP解码优化提升至321 tokens/s [18] - 对比DeepSeek-V2的专家负载集中现象（最高处理30% token量），盘古Pro MoE实现各专家均匀分布（约12.5%） [26] 行业应用价值 - 推动大模型从参数竞赛转向实效主义，通过动态负载均衡技术降低云端推理成本 [27] - 轻量化推理引擎适配华为昇腾芯片，赋能客户运行百亿级模型，开辟AI产业应用新蓝海 [27] - 在代码生成（HumanEval 63.7 Pass@1）和数学推理（GSM8K 86.5 EM）等复杂任务展现领先性能 [24]

混合专家模型（MoE）

分组混合专家模型（MoGE）

Artificial Intelligence

盘古Pro MoE大模型

混合专家模型（MoE）

分组混合专家模型（MoGE）

Artificial Intelligence

盘古Pro MoE大模型

华为盘古首次露出，昇腾原生72B MoE架构，SuperCLUE千亿内模型并列国内第一

机器之心· 2025-05-28 16:09

混合专家模型技术革新 - 华为盘古团队提出分组混合专家模型（MoGE），通过分组机制解决传统MoE专家激活频次不均衡问题，在4K昇腾集群实现高效训练 [2] - MoGE架构下盘古Pro MoE模型（72B总参数/16B激活参数）在昇腾300I Duo和800I A2硬件上分别实现321 tokens/s和1528 tokens/s的推理速度 [2] - 分组均衡路由技术强制每个token在预定义专家组内激活等量专家，确保跨设备负载均衡，组间负载差异为0 [12][21] 模型性能表现 - 盘古Pro MoE以72B总参数量在SuperCLUE榜单获59分，千亿参数以内模型并列国内第一，16B激活参数媲美更大规模模型 [3] - 在MMLU-Pro（63.5 EM）、C-Eval（90.6 EM）、HumanEval（63.7 Pass@1）等基准测试中超越同规模稠密模型和MoE模型 [27] - 对比DeepSeek-V2的专家负载集中现象（最高30% token量），盘古Pro MoE实现各专家12.5% token处理的均匀分布 [29] 昇腾硬件协同优化 - 采用分层仿真策略优化昇腾300I Duo/800I A2平台的算子级编译，通过TFLOPS、内存带宽等硬件参数关联搜索最优并行策略 [19][22] - 结合MTP解码和多token优化，昇腾300I Duo单卡吞吐从201 tokens/s提升至321 tokens/s，800I A2平台高并发下达1528 tokens/s [24] - 深度融合昇腾硬件加速架构的并行特性，实现从算法设计到系统落地的全栈创新 [6] 行业应用价值 - 动态负载均衡技术有效降低云端推理成本，支持高并发实时场景，轻量化引擎适配昇腾芯片赋能百亿级模型部署 [31] - 推动大模型从参数竞赛转向实效主义，为企业级应用提供高效普惠的智能底座 [30] - 在代码生成、数学推理等复杂任务中展现同规模最优性能，为AI工业化部署提供新范式 [7][28]

混合专家模型（MoE）

盘古Pro MoE大模型

混合专家模型（MoE）

盘古Pro MoE大模型

华为+DeepSeek，终于不再“服务器繁忙”？

虎嗅APP· 2025-05-20 22:00

大模型与MoE架构挑战 - 主流MoE架构大模型存在硬件成本高、效率低等"先天不足"，中国企业面临芯片堆砌与效率挖掘的挑战[1] - 华为作为智能基础设施提供商，通过数学算法和工程积累为DeepSeek提升效率及用户体验[1] MoE模型的冷热专家问题 - MoE模型通过分配token给不同专家网络实现高效扩展，但面临负载不均衡的严峻挑战[4] - 冷热专家现象表现为：热专家调用频率比冷专家高一个数量级，导致推理延迟增加、吞吐量受限[4] 华为OmniPlacement负载均衡技术 - 通过专家重排、层间冗余部署和近实时动态调度提升MoE模型推理性能[7] - 动态优先级调整：实时统计专家调用频率，优先将高频专家部署在强计算节点[7] - 通信域优化：分析批次内激活卡数，减少跨节点通信延迟[7] 层间高频专家冗余部署 - 为热专家分配冗余实例降低跨节点通信开销，提升系统吞吐量[8] - 动态资源分配：根据实时资源占用和调用频率调整冗余实例比例[9] - 层间差异化配置：高负载层分配更多冗余实例，低负载层减少冗余节省显存[9] 近实时调度与监控机制 - 毫秒级动态调整专家分配，迭代优化部署模式降低计算开销[10] - 独立计算流运行监控任务，避免干扰推理主流程[10] - 层间流水线设计实现专家权重动态调整，降低高负载场景延迟[10] OmniPlacement框架特性 - 高兼容性：支持多种MoE模型架构，无缝集成现有推理系统[12] - 低时延开销：优化数据处理和调度流程减少额外计算开销[12] - 模块化设计：数据统计、算法运行和专家调度三大模块解耦[12] 性能验证与未来方向 - 实验显示OmniPlacement使DeepSeek-V3推理延迟降低10%，吞吐量提升10%[14] - 未来研究方向包括调度算法优化、自适应专家选择和框架扩展[15] - 技术突破体现华为在芯片架构、算法和软件生态的长期积累[15]

混合专家模型（MoE）

Artificial Intelligence

混合专家模型（MoE）

Artificial Intelligence