混合专家模型（MoE） - 财报，业绩电话会，研报，新闻 - Reportify

混合专家模型（MoE）

搜索文档

DeepSeek再出手！R1升级版性能大提升，美国对手慌了？

金十数据· 2025-05-30 11:52

模型升级内容 - 公司完成DeepSeek R1模型小版本升级主要强化语义理解精准性复杂逻辑推理能力长文本处理稳定性 [1] - 网友测评显示模型理解能力显著提升激活参数部分可制作交互动画展示关键信息逻辑更清晰 [1] - 编程能力大幅提升可一次性生成1000多行无错误代码性能接近Claude 4 [1] - Hugging Face研究员指出升级后模型在减少幻觉方面有重大改进显示与顶级模型竞争实力 [1] 模型性能对比 - DeepSeek-V3-0324模型在数学代码类评测集上超越GPT-4 5和Claude-3 7-Sonnet [1] - V3模型性价比极高输入价格为Claude-3 7-Sonnet的1/11 GPT-4 5的1/277 且开源可免费商用 [1] - R1-0528版本在LiveCodeBench代码生成排行榜中略低于OpenAI o4 mini和o3推理模型但超过xAI Grok 3 mini和阿里巴巴Qwen 3 [2] 市场影响 - R1模型1月发布时因多项指标优于西方竞争对手引发全球关注导致科技股暴跌 [2] - V3模型发布后市场热度下降焦点转向未发布的R2模型 [2] - R1-0528版本发布再次引发全球媒体关注被指加剧与OpenAI等美国竞争对手的竞争 [2] - 低成本高性能R1模型推动中国科技股上涨显示市场对中国AI能力的乐观预期 [2] 未来产品规划 - R2模型预计采用混合专家模型(MoE) 参数量达1 2万亿单位推理成本较GPT-4大幅降低 [2] - 公司尚未正式确认R2模型发布时间 [2]

Seek .(US:SKLTY)

混合专家模型（MoE）

Artificial Intelligence

OpenAI o3推理模型

xAI Grok 3 mini

阿里巴巴Qwen 3

混合专家模型（MoE）

Artificial Intelligence

OpenAI o3推理模型

xAI Grok 3 mini

阿里巴巴Qwen 3

中金 • 联合研究 | AI十年展望（二十三）：AI+陪伴：技术降本×场景升维，提供深度情绪价值

中金点睛· 2025-05-30 07:39

行业概览 - AI陪伴是目前落地较快、热度较高的AI应用赛道，CharacterAI和Talkie率先达到千万MAU级别 [1] - 2023年全球AI陪伴市场规模约3000万美元，2030年基准/乐观情形下有望达700亿/1500亿美元，2024-2030年CAGR分别为200%/236% [7] - 2018-2023年AI陪伴产品MAU增长近30倍，从不足50万扩大至约1500万，渗透率增速高于社交媒体和在线游戏 [7] 产品核心要素 - 拟人化、个性化、实时互动、沉浸感和养成感是关键要素，满足陪伴、娱乐、幻想和效率提升需求 [2] - 用户集中于年轻群体，对AI容错率较高，更关注情感体验而非精准答复 [8] - 国内应用中星野DAU持续领先（2023年10月-2025年5月从10万增至141万），猫箱增长强劲（2024年3月-2025年5月从0.2万增至109万） [10] 技术驱动 - 混合专家模型（MoE）降低推理成本，DeepSeek-V3实现每人每天1小时交互成本约0.1元，通过缓存和错峰可压缩至0.03-0.05元/人天 [22] - 线性注意力机制将长文本处理复杂度从二次方降为线性，MiniMax-01在128K以上长度测试中超越主流模型 [24] - 多模态能力（图像/音频/视频生成）提升沉浸感，CharacterAI和星野已推出语音交互功能，端到端多模态架构如Gemini和GPT-4o带来效果跃升 [30] 典型应用案例 - **Replika**：全球最早商业化成功的AI陪伴应用，定位情感支持，2024年8月注册用户超3000万，已盈利 [33][35] - **CharacterAI**：技术驱动型，2024年8月MAU达2200万，创始团队来自谷歌LaMDA，采用通用Chatbot视角设计产品 [36][37] - **MiniMax星野**：引入卡牌机制和UGC社区生态，30日用户留存率从2023年10月的39%升至2024年10月的60%以上 [15][43] - **筑梦岛**：聚焦小说场景，80%为女性用户，用户日均对话超120轮，2025年1月注册用户近500万 [44][46] - **字节猫箱**：短剧化+公域社交设计，2024年9月下载量居国内市场第一，累计超500万次 [49][50] - **自然选择EVE**：3D AI伴侣，配备自研情感对话模型Vibe和记忆模型Echo，拟真度高 [53][54] 未来趋势 - 玩法创新是关键胜负手，延展方向包括硬件载体（如AI玩具）、垂直场景（教育/游戏）、用户群体拓展（老人/儿童） [64][65] - AI或成为内容网络中心，传统社交关系弱化，可能出现AI时代的"抖音" [59] - 当前挑战包括技术瓶颈（长时记忆/多智能体协同）、用户留存率低、商业化模式不成熟及算力成本高 [63]

混合专家模型（MoE）

线性化注意力模型

混合专家模型（MoE）

线性化注意力模型

DeepSeek R1模型完成“小版本试升级”，编程、逻辑理解上了一个层次！

华尔街见闻· 2025-05-29 08:57

DeepSeek R1模型更新 - DeepSeek发布R1模型小版本试升级更新内容包括语义理解精准性、复杂逻辑推理、长文本处理稳定性等方面的强化 [1][2] - 用户测评显示模型理解能力显著提升可制作交互动画展示激活参数关键信息逻辑清晰 [3] - 编程能力大幅增强可一次性生成1000多行无bug代码性能媲美Claude 4 [4][5] DeepSeek-V3模型表现 - DeepSeek-V3-0324模型全面超越Claude-3.7-Sonnet 在数学和代码类评测中超过GPT-4.5 [6] - 新版DeepSeek-V3与Grok-3并列传统对话类模型榜首推理任务表现突出 [6] - 性价比优势显著输入价格仅为Claude-3.7-Sonnet的1/11、GPT-4.5的1/277 且开源免费商用 [6][7] R1模型市场影响 - R1模型性能优于西方竞争对手成本仅数百万美元采用低版本英伟达芯片 [7] - R1的崛起引发全球科技股暴跌市场质疑巨头高投入AI模型的必要性 [8] R2模型预期与进展 - R2原计划5月初发布目标提升代码生成能力支持多语言推理 [9] - 公司联合清华大学提出SPCT学习方法构建DeepSeek-GRM系列模型引入元奖励模型提升推理扩展性 [9] - 传闻R2将采用混合专家模型参数量达1.2万亿较R1提升约1倍单位推理成本较GPT-4降低97.4% [10] - R2训练全程使用昇腾910B芯片集群计算性能512 PetaFLOPS 芯片利用率82% 性能达A100集群的91% [10] 市场反应与猜测 - V3模型升级后公司热度下降市场关注焦点转向R2发布 [9] - 社交媒体猜测R1小升级可能意味着R2尚未准备好 [11]

混合专家模型（MoE）

自我原则点评调优（SPCT）

元奖励模型（meta RM）

Artificial Intelligence

DeepSeek R1模型

混合专家模型（MoE）

自我原则点评调优（SPCT）

元奖励模型（meta RM）

Artificial Intelligence

DeepSeek R1模型

华为盘古首次露出，昇腾原生72B MoE架构，SuperCLUE千亿内模型并列国内第一

华尔街见闻· 2025-05-29 08:57

混合专家模型技术突破 - 华为盘古团队提出分组混合专家模型（MoGE），通过专家分组机制实现跨设备计算负载均衡，在4K昇腾大规模集群上高效训练 [1] - MoGE架构下盘古Pro MoE大模型（72B总参数/16B激活参数）在昇腾300I Duo和800I A2平台分别实现321 tokens/s和1528 tokens/s的推理速度 [1] - 传统MoE存在专家激活频次高度不均衡问题，导致系统效率瓶颈，而MoGE通过硬约束负载均衡策略解决这一行业难题 [6][7] 模型性能表现 - 盘古Pro MoE以72B总参数量在SuperCLUE榜单获得58.75分，千亿参数量以内大模型排行并列国内第一 [2][3] - 在MMLU-Pro（5-shot）测试中得分63.5，显著高于同规模稠密模型GLM4（55.8）和Gemma3（50.3） [24] - 中文能力突出，在C-Eval（5-shot）和CMMLU（5-shot）分别取得90.6和89.0的EM分数，领先多数对比模型 [24] 技术创新细节 - 采用分组均衡路由技术，将专家均匀划分为M组，每组独立进行Top-K路由，确保组间负载差异为0 [16] - 引入Batch级辅助均衡损失函数，超参数α控制强度，f_i表示批次中被路由到专家i的token占比 [14] - 通过三层架构仿真策略（粗粒度筛选→候选集缩减→算子级仿真）优化昇腾平台亲和性 [15] 硬件适配优化 - 深度融合昇腾300I Duo/800I A2硬件加速架构特性，实现混合并行与通信优化等软硬协同创新 [18] - 在昇腾300I Duo平台单卡吞吐达201 tokens/s，经MTP解码优化提升至321 tokens/s [18] - 对比DeepSeek-V2的专家负载集中现象（最高处理30% token量），盘古Pro MoE实现各专家均匀分布（约12.5%） [26] 行业应用价值 - 推动大模型从参数竞赛转向实效主义，通过动态负载均衡技术降低云端推理成本 [27] - 轻量化推理引擎适配华为昇腾芯片，赋能客户运行百亿级模型，开辟AI产业应用新蓝海 [27] - 在代码生成（HumanEval 63.7 Pass@1）和数学推理（GSM8K 86.5 EM）等复杂任务展现领先性能 [24]

混合专家模型（MoE）

分组混合专家模型（MoGE）

Artificial Intelligence

盘古Pro MoE大模型

混合专家模型（MoE）

分组混合专家模型（MoGE）

Artificial Intelligence

盘古Pro MoE大模型

华为盘古首次露出，昇腾原生72B MoE架构，SuperCLUE千亿内模型并列国内第一

机器之心· 2025-05-28 16:09

混合专家模型技术革新 - 华为盘古团队提出分组混合专家模型（MoGE），通过分组机制解决传统MoE专家激活频次不均衡问题，在4K昇腾集群实现高效训练 [2] - MoGE架构下盘古Pro MoE模型（72B总参数/16B激活参数）在昇腾300I Duo和800I A2硬件上分别实现321 tokens/s和1528 tokens/s的推理速度 [2] - 分组均衡路由技术强制每个token在预定义专家组内激活等量专家，确保跨设备负载均衡，组间负载差异为0 [12][21] 模型性能表现 - 盘古Pro MoE以72B总参数量在SuperCLUE榜单获59分，千亿参数以内模型并列国内第一，16B激活参数媲美更大规模模型 [3] - 在MMLU-Pro（63.5 EM）、C-Eval（90.6 EM）、HumanEval（63.7 Pass@1）等基准测试中超越同规模稠密模型和MoE模型 [27] - 对比DeepSeek-V2的专家负载集中现象（最高30% token量），盘古Pro MoE实现各专家12.5% token处理的均匀分布 [29] 昇腾硬件协同优化 - 采用分层仿真策略优化昇腾300I Duo/800I A2平台的算子级编译，通过TFLOPS、内存带宽等硬件参数关联搜索最优并行策略 [19][22] - 结合MTP解码和多token优化，昇腾300I Duo单卡吞吐从201 tokens/s提升至321 tokens/s，800I A2平台高并发下达1528 tokens/s [24] - 深度融合昇腾硬件加速架构的并行特性，实现从算法设计到系统落地的全栈创新 [6] 行业应用价值 - 动态负载均衡技术有效降低云端推理成本，支持高并发实时场景，轻量化引擎适配昇腾芯片赋能百亿级模型部署 [31] - 推动大模型从参数竞赛转向实效主义，为企业级应用提供高效普惠的智能底座 [30] - 在代码生成、数学推理等复杂任务中展现同规模最优性能，为AI工业化部署提供新范式 [7][28]

混合专家模型（MoE）

盘古Pro MoE大模型

混合专家模型（MoE）

盘古Pro MoE大模型

华为+DeepSeek，终于不再“服务器繁忙”？

虎嗅APP· 2025-05-20 22:00

大模型与MoE架构挑战 - 主流MoE架构大模型存在硬件成本高、效率低等"先天不足"，中国企业面临芯片堆砌与效率挖掘的挑战[1] - 华为作为智能基础设施提供商，通过数学算法和工程积累为DeepSeek提升效率及用户体验[1] MoE模型的冷热专家问题 - MoE模型通过分配token给不同专家网络实现高效扩展，但面临负载不均衡的严峻挑战[4] - 冷热专家现象表现为：热专家调用频率比冷专家高一个数量级，导致推理延迟增加、吞吐量受限[4] 华为OmniPlacement负载均衡技术 - 通过专家重排、层间冗余部署和近实时动态调度提升MoE模型推理性能[7] - 动态优先级调整：实时统计专家调用频率，优先将高频专家部署在强计算节点[7] - 通信域优化：分析批次内激活卡数，减少跨节点通信延迟[7] 层间高频专家冗余部署 - 为热专家分配冗余实例降低跨节点通信开销，提升系统吞吐量[8] - 动态资源分配：根据实时资源占用和调用频率调整冗余实例比例[9] - 层间差异化配置：高负载层分配更多冗余实例，低负载层减少冗余节省显存[9] 近实时调度与监控机制 - 毫秒级动态调整专家分配，迭代优化部署模式降低计算开销[10] - 独立计算流运行监控任务，避免干扰推理主流程[10] - 层间流水线设计实现专家权重动态调整，降低高负载场景延迟[10] OmniPlacement框架特性 - 高兼容性：支持多种MoE模型架构，无缝集成现有推理系统[12] - 低时延开销：优化数据处理和调度流程减少额外计算开销[12] - 模块化设计：数据统计、算法运行和专家调度三大模块解耦[12] 性能验证与未来方向 - 实验显示OmniPlacement使DeepSeek-V3推理延迟降低10%，吞吐量提升10%[14] - 未来研究方向包括调度算法优化、自适应专家选择和框架扩展[15] - 技术突破体现华为在芯片架构、算法和软件生态的长期积累[15]

混合专家模型（MoE）

Artificial Intelligence

混合专家模型（MoE）

Artificial Intelligence

华为发布OmniPlacement技术，实现超大规模MoE专家最优动态部署，提升昇腾推理系统吞吐10%

雷峰网· 2025-05-20 21:01

混合专家模型(MoE)技术发展 - 混合专家模型通过将输入token分配给不同专家网络实现高效扩展，显著提升大语言模型处理复杂任务的能力[2] - 当前MoE模型面临核心挑战是负载不均衡问题，表现为热专家调用频率比冷专家高出一个数量级以上[2] - 负载不均导致三大问题：计算节点成为瓶颈延长推理时间、系统吞吐量受限、资源利用率不足[2][3] 华为OmniPlacement技术创新 - 提出三层技术方案：计算均衡联合优化、层间冗余部署、近实时动态调度[4] - 核心算法通过分析专家激活数据优化部署顺序，降低负载不均现象[4] - 采用层间差异化冗余策略，高负载层分配更多冗余实例，节省显存同时提升吞吐量[4][5] - 动态调度机制实现毫秒级专家分配调整，监控与推理流程分离保障系统稳定性[6][8] 开源框架技术特性 - 开发vLLM推理优化框架Omni Placement，具备模块化架构设计[7] - 框架四大优势：兼容多种MoE架构、时延开销低于1%、模块化支持快速迭代、可扩展新算法[9] - 应用昇腾算力并整合开源最佳实践，近期将全面开源回馈社区[1][10] 实验验证效果 - 在DeepSeek-V3模型测试中，相比基线方法实现10%延迟降低和10%吞吐量提升[14] - 高并发场景下通过冗余部署和动态调度有效缓解负载瓶颈[12][14] - 系统在动态输入环境下保持稳定，未出现性能波动或中断[14] 未来技术方向 - 重点开发智能调度算法提升系统自适应能力[16] - 探索基于输入特征的自适应专家选择机制[16] - 扩展框架功能支持更多类型MoE模型[16] - 在智能客服等工业场景展现应用潜力，提升用户体验和系统吞吐[15]

混合专家模型（MoE）

昇腾系列产品

混合专家模型（MoE）

昇腾系列产品

华为：让DeepSeek的“专家们”动起来，推理延迟降10%！

量子位· 2025-05-20 13:12

混合专家模型(MoE)技术突破 - 混合专家模型(MoE)通过将任务分配给擅长处理的专家网络提升系统性能，但负载均衡问题成为影响推理性能的关键因素 [1][2][3] - MoE模型中专家网络调用频率差异可达一个数量级以上，导致系统推理时间延长、资源利用率受限 [4][5] - 华为团队提出的OmniPlacement技术使DeepSeek-V3推理延迟降低约10%、吞吐量提升约10%，并计划全面开源该方案 [6][7][28] OmniPlacement技术原理 - 采用基于计算均衡的联合优化算法，通过动态优先级调整、通信域优化和层间差异化部署显著降低负载不均 [9][10][11][12] - 针对高频专家实施层间冗余部署策略，通过分配冗余实例降低跨节点通信开销 [14][15][17] - 设计近实时调度与动态监控机制，包含动态资源分配、层间差异化配置和预测性分配功能 [18][19][20] 技术实现框架与效果 - 开发模块化推理优化框架OmniPlacement，核心算法与推理流程分离，支持独立调度和灵活调整 [21][22][30] - 实验验证显示该技术在多节点GPU集群和高并发场景下表现稳定，运算效率和资源利用率显著提升 [24][25][26] - 框架具备高兼容性、低时延开销和可扩展性，支持多种MoE模型架构和动态算法添加 [29][30][31]

混合专家模型（MoE）

负载均衡问题

Telecommunications Equipment

昇腾超大规模MoE模型推理部署技术

混合专家模型（MoE）

负载均衡问题

Telecommunications Equipment

昇腾超大规模MoE模型推理部署技术

DeepSeek-R1与Grok-3：AI规模扩展的两条技术路线启示

Counterpoint Research· 2025-04-09 21:01

核心观点 - DeepSeek-R1 和 Grok-3 代表了AI发展的两种不同路径：前者通过算法创新和高效资源利用实现高性能，后者依赖大规模计算资源投入 [2][8] - 行业趋势正从“原始规模主导”转向“战略效率优先”，算法设计、混合专家模型（MoE）和强化学习成为关键杠杆 [8][10] - 未来AI发展将更注重投资回报率（ROI），平衡规模扩展与算法优化 [8][10] 模型性能与资源对比 - DeepSeek-R1 仅使用约2000块NVIDIA H800 GPU即达到全球前沿推理模型性能，展现高效训练能力 [2] - Grok-3 动用约20万块NVIDIA H100 GPU，性能略优于DeepSeek-R1、GPT-o1和Gemini 2，但资源消耗相差百倍 [2][8] - 两者性能相近，但资源投入差异显著，凸显算法创新可抗衡纯计算规模 [8] 发展路径差异 - Grok-3 采用“蛮力策略”，依赖数十亿美元GPU计算规模，边际性能提升显著但ROI递减 [8] - DeepSeek-R1 通过混合专家模型（MoE）、推理强化学习和高质量数据，以最小硬件代价实现顶尖性能 [8] - 行业可能从“规模法则”转向“算法突破+工程实用主义”的全局发展观 [10] 未来AI趋势 - 集中式训练项目（如Grok-3）成本过高，仅限少数巨头参与，中小机构需转向效率优化策略 [10] - 混合专家模型（MoE）、稀疏化、改进微调和强化学习将成为核心，降低资源消耗 [10] - 新数据训练与强基础模型结合（如RAG或定期微调），可避免持续大规模计算负担 [10]

英伟达(US:NVDA)

投资回报率(ROI)导向的规模扩展

混合专家模型（MoE）

Artificial Intelligence

投资回报率(ROI)导向的规模扩展

混合专家模型（MoE）

Artificial Intelligence

LIama 4发布重夺开源第一！DeepSeek同等代码能力但参数减一半，一张H100就能跑，还有两万亿参数超大杯

量子位· 2025-04-06 10:33

Llama 4系列模型发布 - Meta发布首个基于MoE架构的Llama 4系列模型，包括Llama 4 Scout、Llama 4 Maverick和尚未推出的Llama 4 Behemoth [3][4] - 前两款被官方称为"最先进的型号"和"最好的多模态型号"，其中Llama 4 Scout有16位专家的170亿激活参数，Llama 4 Maverick有128位专家的170亿激活参数 [4][5] - Llama 4 Behemoth为2万亿参数的教师模型，多个基准测试超过GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro [5][50][52] 模型性能与技术特点 - Llama 4 Maverick在大模型竞技场排名中得分1417，超越DeepSeek-V3成为排名第一的开源模型 [8][9] - 系列模型采用MoE架构，Llama 4 Scout和Maverick分别有16和128个专家模型，总参数分别为17B和400B [15][16][17][58] - 提供超长上下文窗口，Llama 4 Scout达100万token，预训练后长度泛化能力达256K [20][27] - 原生多模态设计支持图像理解，在MMMU、ChartQA等基准测试中超越Gemma 3、Gemini 2.0等竞品 [30][31][43] 训练与技术创新 - 预训练使用FP8精度实现390TFLOPs/GPU效率，训练数据达30万亿token是Llama 3的两倍 [63][64] - 采用MetaP新技术设置超参数，在200种语言上训练，词库总量是Llama 3的10倍 [62][63] - 后训练采用轻量级SFT>在线RL>轻量级DPO的课程策略，通过数据过滤提升推理和编码能力 [68][69][70] - 创新iRoPE架构使用交错注意力层无需位置嵌入，支持"无限"上下文长度目标 [70] 商业化与竞争格局 - Llama 4 Maverick推理成本仅$0.19-$0.495/百万token，价格显著低于GPT-4o等竞品 [49] - 行业竞争加剧，OpenAI计划提前发布o3和o4-mini应对，DeepSeek等中国厂商也在加速创新 [80][81] - 模型已在官网和Hugging Face开放下载，支持12种语言方便全球开发者部署 [13][45]

Meta Platforms(US:META)

Artificial Intelligence

混合专家模型（MoE）

Artificial Intelligence

Artificial Intelligence

混合专家模型（MoE）

Artificial Intelligence