混合专家模型

搜索文档
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 19:07
核心观点 - AI技术正在重新定义商业创新模式,企业需转变思路以保持竞争力 [1][2] - OpenAI和DeepSeek分别通过不同路径实现AI技术突破,为行业提供创新范式 [3][4] - AI能力的"涌现"现象成为技术跃迁的关键特征 [19][20][21] - 人机交互范式因ChatGPT发生根本性变革 [22][23][24] - 中国公司DeepSeek打破"美国原创、中国应用"的思维定式,展现基础研究实力 [75][77][78] OpenAI的创新路径 创立背景 - 2015年由马斯克和奥特曼创立,初衷是防止AI技术被巨头垄断 [9] - 从谷歌挖来核心科学家伊利亚·苏茨克维尔,坚持开源、安全、普惠理念 [10][12] 技术突破 - 基于Transformer架构的"自注意力机制"大幅提升语言理解能力 [13] - Scaling Law揭示模型规模与性能的线性关系,指导大规模投入 [15][16] - GPT系列模型通过"涌现"现象实现能力跃升,参数量临界点触发智能爆发 [19][20] 产品里程碑 - ChatGPT通过自然语言交互降低使用门槛,引发全球现象级应用 [22][23] - 推理模型o1实现从直觉思维(系统1)到理性推理(系统2)的认知跃迁 [26][30] DeepSeek的逆袭战略 技术路线 - 提出"有限Scaling Law",在资源受限下追求高性能 [32][33] - MLA技术优化内存效率,MoE架构实现计算资源动态分配 [38][39][42] - V3模型6710亿参数仅激活37亿,训练成本5557万美元(行业1/10) [44] 核心突破 - R1模型采用纯强化学习(类似AlphaGo Zero),展示完整推理过程 [45][47][49] - 在奥数竞赛中与OpenAI o1准确率相当,登顶美国应用榜单 [50][51] 组织创新 - 动态团队构成和自组织管理激发"涌现"式创新 [55][56][57] - 研究员自主提出MLA架构和训练公式,体现扁平化协作 [59][60] - 150人论文署名包含数据标注员,打破传统KPI束缚 [61][62] 行业启示 技术趋势 - AI从专用工具向通用智能演进,"涌现"成为能力突破关键指标 [20][21] - 对话式交互(ChatGPT)和推理能力(o1/R1)定义下一代AI标准 [23][26][45] 创新生态 - 中国公司首次在基础研究领域实现全球领先,打破技术跟随惯性 [75][77] - 资源效率(DeepSeek)与规模投入(OpenAI)并存,拓宽行业可能性 [32][44] 组织变革 - 传统金字塔管理让位于开放协作和资源自由调配的新型研发模式 [55][63][68] - "非标准人才"和纯粹技术热情成为创新核心驱动力 [66][67]
DeepSeek再出手!R1升级版性能大提升,美国对手慌了?
金十数据· 2025-05-30 11:52
DeepSeek的R1模型自1月发布以来,曾因多项指标优于西方竞争对手而引发全球关注,并导致科技股暴 跌。然而,自V3模型发布后,DeepSeek的热度有所下降,市场更关注其R2模型的发布。此前有消息 称,R2将采用混合专家模型(MoE),参数量预计达1.2万亿,单位推理成本较GPT-4大幅降低。但截 至目前,DeepSeek仍未正式确认R2的发布时间。 R1推理模型的最新版本R1-0528再次引发了全球媒体的广泛关注。 路透社报道称,此次发布加剧了与美国竞争对手如OpenAI的竞争。在由加州大学伯克利分校、麻省理 工学院和康奈尔大学研究人员开发的LiveCodeBench排行榜中,DeepSeek的R1-0528在代码生成方面仅 略低于OpenAI的o4 mini和o3推理模型,但超过了xAI的Grok 3 mini和阿里巴巴的Qwen 3。 CNBC指出,DeepSeek此次升级模型发布低调,但其推理能力使其能够执行更复杂的任务。《华尔街日 报》中文版则提到,DeepSeek的低成本、高性能R1模型自年初以来吸引了全球目光,推动了中国科技 股的上涨,也显示出市场对中国AI能力的乐观预期。 DeepSeek ...
中金 • 联合研究 | AI十年展望(二十三):AI+陪伴:技术降本×场景升维,提供深度情绪价值
中金点睛· 2025-05-30 07:39
行业概览 - AI陪伴是目前落地较快、热度较高的AI应用赛道,CharacterAI和Talkie率先达到千万MAU级别 [1] - 2023年全球AI陪伴市场规模约3000万美元,2030年基准/乐观情形下有望达700亿/1500亿美元,2024-2030年CAGR分别为200%/236% [7] - 2018-2023年AI陪伴产品MAU增长近30倍,从不足50万扩大至约1500万,渗透率增速高于社交媒体和在线游戏 [7] 产品核心要素 - 拟人化、个性化、实时互动、沉浸感和养成感是关键要素,满足陪伴、娱乐、幻想和效率提升需求 [2] - 用户集中于年轻群体,对AI容错率较高,更关注情感体验而非精准答复 [8] - 国内应用中星野DAU持续领先(2023年10月-2025年5月从10万增至141万),猫箱增长强劲(2024年3月-2025年5月从0.2万增至109万) [10] 技术驱动 - 混合专家模型(MoE)降低推理成本,DeepSeek-V3实现每人每天1小时交互成本约0.1元,通过缓存和错峰可压缩至0.03-0.05元/人天 [22] - 线性注意力机制将长文本处理复杂度从二次方降为线性,MiniMax-01在128K以上长度测试中超越主流模型 [24] - 多模态能力(图像/音频/视频生成)提升沉浸感,CharacterAI和星野已推出语音交互功能,端到端多模态架构如Gemini和GPT-4o带来效果跃升 [30] 典型应用案例 - **Replika**:全球最早商业化成功的AI陪伴应用,定位情感支持,2024年8月注册用户超3000万,已盈利 [33][35] - **CharacterAI**:技术驱动型,2024年8月MAU达2200万,创始团队来自谷歌LaMDA,采用通用Chatbot视角设计产品 [36][37] - **MiniMax星野**:引入卡牌机制和UGC社区生态,30日用户留存率从2023年10月的39%升至2024年10月的60%以上 [15][43] - **筑梦岛**:聚焦小说场景,80%为女性用户,用户日均对话超120轮,2025年1月注册用户近500万 [44][46] - **字节猫箱**:短剧化+公域社交设计,2024年9月下载量居国内市场第一,累计超500万次 [49][50] - **自然选择EVE**:3D AI伴侣,配备自研情感对话模型Vibe和记忆模型Echo,拟真度高 [53][54] 未来趋势 - 玩法创新是关键胜负手,延展方向包括硬件载体(如AI玩具)、垂直场景(教育/游戏)、用户群体拓展(老人/儿童) [64][65] - AI或成为内容网络中心,传统社交关系弱化,可能出现AI时代的"抖音" [59] - 当前挑战包括技术瓶颈(长时记忆/多智能体协同)、用户留存率低、商业化模式不成熟及算力成本高 [63]
DeepSeek R1模型完成“小版本试升级”,编程、逻辑理解上了一个层次!
华尔街见闻· 2025-05-29 08:57
DeepSeek R1模型更新 - DeepSeek发布R1模型小版本试升级 更新内容包括语义理解精准性、复杂逻辑推理、长文本处理稳定性等方面的强化 [1][2] - 用户测评显示模型理解能力显著提升 可制作交互动画展示激活参数 关键信息逻辑清晰 [3] - 编程能力大幅增强 可一次性生成1000多行无bug代码 性能媲美Claude 4 [4][5] DeepSeek-V3模型表现 - DeepSeek-V3-0324模型全面超越Claude-3.7-Sonnet 在数学和代码类评测中超过GPT-4.5 [6] - 新版DeepSeek-V3与Grok-3并列传统对话类模型榜首 推理任务表现突出 [6] - 性价比优势显著 输入价格仅为Claude-3.7-Sonnet的1/11、GPT-4.5的1/277 且开源免费商用 [6][7] R1模型市场影响 - R1模型性能优于西方竞争对手 成本仅数百万美元 采用低版本英伟达芯片 [7] - R1的崛起引发全球科技股暴跌 市场质疑巨头高投入AI模型的必要性 [8] R2模型预期与进展 - R2原计划5月初发布 目标提升代码生成能力 支持多语言推理 [9] - 公司联合清华大学提出SPCT学习方法 构建DeepSeek-GRM系列模型 引入元奖励模型提升推理扩展性 [9] - 传闻R2将采用混合专家模型 参数量达1.2万亿 较R1提升约1倍 单位推理成本较GPT-4降低97.4% [10] - R2训练全程使用昇腾910B芯片集群 计算性能512 PetaFLOPS 芯片利用率82% 性能达A100集群的91% [10] 市场反应与猜测 - V3模型升级后公司热度下降 市场关注焦点转向R2发布 [9] - 社交媒体猜测R1小升级可能意味着R2尚未准备好 [11]
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
华尔街见闻· 2025-05-29 08:57
混合专家模型技术突破 - 华为盘古团队提出分组混合专家模型(MoGE),通过专家分组机制实现跨设备计算负载均衡,在4K昇腾大规模集群上高效训练 [1] - MoGE架构下盘古Pro MoE大模型(72B总参数/16B激活参数)在昇腾300I Duo和800I A2平台分别实现321 tokens/s和1528 tokens/s的推理速度 [1] - 传统MoE存在专家激活频次高度不均衡问题,导致系统效率瓶颈,而MoGE通过硬约束负载均衡策略解决这一行业难题 [6][7] 模型性能表现 - 盘古Pro MoE以72B总参数量在SuperCLUE榜单获得58.75分,千亿参数量以内大模型排行并列国内第一 [2][3] - 在MMLU-Pro(5-shot)测试中得分63.5,显著高于同规模稠密模型GLM4(55.8)和Gemma3(50.3) [24] - 中文能力突出,在C-Eval(5-shot)和CMMLU(5-shot)分别取得90.6和89.0的EM分数,领先多数对比模型 [24] 技术创新细节 - 采用分组均衡路由技术,将专家均匀划分为M组,每组独立进行Top-K路由,确保组间负载差异为0 [16] - 引入Batch级辅助均衡损失函数,超参数α控制强度,f_i表示批次中被路由到专家i的token占比 [14] - 通过三层架构仿真策略(粗粒度筛选→候选集缩减→算子级仿真)优化昇腾平台亲和性 [15] 硬件适配优化 - 深度融合昇腾300I Duo/800I A2硬件加速架构特性,实现混合并行与通信优化等软硬协同创新 [18] - 在昇腾300I Duo平台单卡吞吐达201 tokens/s,经MTP解码优化提升至321 tokens/s [18] - 对比DeepSeek-V2的专家负载集中现象(最高处理30% token量),盘古Pro MoE实现各专家均匀分布(约12.5%) [26] 行业应用价值 - 推动大模型从参数竞赛转向实效主义,通过动态负载均衡技术降低云端推理成本 [27] - 轻量化推理引擎适配华为昇腾芯片,赋能客户运行百亿级模型,开辟AI产业应用新蓝海 [27] - 在代码生成(HumanEval 63.7 Pass@1)和数学推理(GSM8K 86.5 EM)等复杂任务展现领先性能 [24]
华为盘古大模型首次打榜:昇腾原生 72B MoE 模型登顶 SuperCLUE 千亿内模型榜首
第一财经· 2025-05-28 21:36
在 AI 的竞技场上,大型语言模型( LLMs )的军备竞赛正酣。其中,混合专家模型( Mixture of Experts, MoE )凭借 "低计算开销实现强能力" 的特性,已成为这场竞赛中的 "潜力黑马",备受瞩 目。 传统的 MoE 架构,虽有着理论上的优势,却在实际落地中遭遇 "滑铁卢"。专家激活频次不均衡,如 同潜藏在高效运行背后的 "暗礁",一旦专家并行部署在不同硬件设备上,系统效率瓶颈便会凸显, 大规模训练也因此举步维艰。这一难题,犹如达摩克利斯之剑,高悬在所有试图在 MoE 架构上大展 宏图的团队头顶。 针 对 这 一 挑 战 , 华 为 盘 古 团 队 近 期 创 新 性 的 提 出 了 分 组 混 合 专 家 模 型 ( Mixture of Grouped Experts, MoGE ),通过在专家选择阶段引入动态分组机制,从底层优化负载分配逻辑,实现跨设 备计算资源的均衡调度。这一架构革新使盘古大模型能够在 4K 昇腾大规模集群中完成高效训练,突 破了传统 MoE 的工程落地瓶颈。 基于 MoGE 架构打造的盘古 Pro MoE 大模型展现出卓越的工程实践能力:模型总参数量 720 ...
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
雷峰网· 2025-05-28 20:06
" 盘古Pro MoE带领大模型从「参数军备竞赛」转向「实效主 义」。 " 作者丨李希 当前,混合专家模型(Mixture of Experts, MoE )在大型语言模型中的兴起,使得以较小的计算开销换 取更大能力成为可能。然而,传统 MoE 普遍存在专家激活频次高度不均衡现象,当专家并行部署于不同 硬件设备时,易引发系统效率瓶颈。 为此,华为盘古团队提出 分组混合专家模型(Mixture of Grouped Experts, MoGE ) ,通过在专家选 择阶段引入分组机制,可确保跨设备的计算负载均衡,成功在 4K 昇腾大规模集群 进行高效训练。 同时,基于 MoGE 架构构建的 盘古 Pro MoE 大模型(72B 总参数、16B 激活参数) 在昇腾 300I Duo 和 800I A2 可实现更优的专家负载分布与计算效率(321 tokens/s 和 1528 tokens/s)。 在模型能力方面,盘古 Pro MoE 在最新一期业界权威大模型榜单 SuperCLUE 上交出了超能打的成绩, 实现了综合能力的领先。 具体来说,和其他动辄千亿以上的大模型(如 DeepSeek-R1 具有 671B 参 ...
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
机器之心· 2025-05-28 16:09
混合专家模型技术革新 - 华为盘古团队提出分组混合专家模型(MoGE),通过分组机制解决传统MoE专家激活频次不均衡问题,在4K昇腾集群实现高效训练 [2] - MoGE架构下盘古Pro MoE模型(72B总参数/16B激活参数)在昇腾300I Duo和800I A2硬件上分别实现321 tokens/s和1528 tokens/s的推理速度 [2] - 分组均衡路由技术强制每个token在预定义专家组内激活等量专家,确保跨设备负载均衡,组间负载差异为0 [12][21] 模型性能表现 - 盘古Pro MoE以72B总参数量在SuperCLUE榜单获59分,千亿参数以内模型并列国内第一,16B激活参数媲美更大规模模型 [3] - 在MMLU-Pro(63.5 EM)、C-Eval(90.6 EM)、HumanEval(63.7 Pass@1)等基准测试中超越同规模稠密模型和MoE模型 [27] - 对比DeepSeek-V2的专家负载集中现象(最高30% token量),盘古Pro MoE实现各专家12.5% token处理的均匀分布 [29] 昇腾硬件协同优化 - 采用分层仿真策略优化昇腾300I Duo/800I A2平台的算子级编译,通过TFLOPS、内存带宽等硬件参数关联搜索最优并行策略 [19][22] - 结合MTP解码和多token优化,昇腾300I Duo单卡吞吐从201 tokens/s提升至321 tokens/s,800I A2平台高并发下达1528 tokens/s [24] - 深度融合昇腾硬件加速架构的并行特性,实现从算法设计到系统落地的全栈创新 [6] 行业应用价值 - 动态负载均衡技术有效降低云端推理成本,支持高并发实时场景,轻量化引擎适配昇腾芯片赋能百亿级模型部署 [31] - 推动大模型从参数竞赛转向实效主义,为企业级应用提供高效普惠的智能底座 [30] - 在代码生成、数学推理等复杂任务中展现同规模最优性能,为AI工业化部署提供新范式 [7][28]
华为+DeepSeek,终于不再“服务器繁忙”?
虎嗅APP· 2025-05-20 22:00
大模型与MoE架构挑战 - 主流MoE架构大模型存在硬件成本高、效率低等"先天不足",中国企业面临芯片堆砌与效率挖掘的挑战[1] - 华为作为智能基础设施提供商,通过数学算法和工程积累为DeepSeek提升效率及用户体验[1] MoE模型的冷热专家问题 - MoE模型通过分配token给不同专家网络实现高效扩展,但面临负载不均衡的严峻挑战[4] - 冷热专家现象表现为:热专家调用频率比冷专家高一个数量级,导致推理延迟增加、吞吐量受限[4] 华为OmniPlacement负载均衡技术 - 通过专家重排、层间冗余部署和近实时动态调度提升MoE模型推理性能[7] - 动态优先级调整:实时统计专家调用频率,优先将高频专家部署在强计算节点[7] - 通信域优化:分析批次内激活卡数,减少跨节点通信延迟[7] 层间高频专家冗余部署 - 为热专家分配冗余实例降低跨节点通信开销,提升系统吞吐量[8] - 动态资源分配:根据实时资源占用和调用频率调整冗余实例比例[9] - 层间差异化配置:高负载层分配更多冗余实例,低负载层减少冗余节省显存[9] 近实时调度与监控机制 - 毫秒级动态调整专家分配,迭代优化部署模式降低计算开销[10] - 独立计算流运行监控任务,避免干扰推理主流程[10] - 层间流水线设计实现专家权重动态调整,降低高负载场景延迟[10] OmniPlacement框架特性 - 高兼容性:支持多种MoE模型架构,无缝集成现有推理系统[12] - 低时延开销:优化数据处理和调度流程减少额外计算开销[12] - 模块化设计:数据统计、算法运行和专家调度三大模块解耦[12] 性能验证与未来方向 - 实验显示OmniPlacement使DeepSeek-V3推理延迟降低10%,吞吐量提升10%[14] - 未来研究方向包括调度算法优化、自适应专家选择和框架扩展[15] - 技术突破体现华为在芯片架构、算法和软件生态的长期积累[15]
华为发布OmniPlacement技术,实现超大规模MoE专家最优动态部署,提升昇腾推理系统吞吐10%
雷峰网· 2025-05-20 21:01
混合专家模型(MoE)技术发展 - 混合专家模型通过将输入token分配给不同专家网络实现高效扩展,显著提升大语言模型处理复杂任务的能力[2] - 当前MoE模型面临核心挑战是负载不均衡问题,表现为热专家调用频率比冷专家高出一个数量级以上[2] - 负载不均导致三大问题:计算节点成为瓶颈延长推理时间、系统吞吐量受限、资源利用率不足[2][3] 华为OmniPlacement技术创新 - 提出三层技术方案:计算均衡联合优化、层间冗余部署、近实时动态调度[4] - 核心算法通过分析专家激活数据优化部署顺序,降低负载不均现象[4] - 采用层间差异化冗余策略,高负载层分配更多冗余实例,节省显存同时提升吞吐量[4][5] - 动态调度机制实现毫秒级专家分配调整,监控与推理流程分离保障系统稳定性[6][8] 开源框架技术特性 - 开发vLLM推理优化框架Omni Placement,具备模块化架构设计[7] - 框架四大优势:兼容多种MoE架构、时延开销低于1%、模块化支持快速迭代、可扩展新算法[9] - 应用昇腾算力并整合开源最佳实践,近期将全面开源回馈社区[1][10] 实验验证效果 - 在DeepSeek-V3模型测试中,相比基线方法实现10%延迟降低和10%吞吐量提升[14] - 高并发场景下通过冗余部署和动态调度有效缓解负载瓶颈[12][14] - 系统在动态输入环境下保持稳定,未出现性能波动或中断[14] 未来技术方向 - 重点开发智能调度算法提升系统自适应能力[16] - 探索基于输入特征的自适应专家选择机制[16] - 扩展框架功能支持更多类型MoE模型[16] - 在智能客服等工业场景展现应用潜力,提升用户体验和系统吞吐[15]