Workflow
混合专家模型(MoE)
icon
搜索文档
破解MoE模型“规模越大,效率越低”困境!中科院自动化所提出新框架
量子位· 2025-10-11 09:15
下面详细来看—— 一套统一框架直击MoE底层运作模式 随着LLM参数规模的持续扩张,模型规模增长与计算效率优化难以协同推进的核心挑战逐渐显现,混合专家模型(MoE)作为一种稀疏激活架 构,为模型规模的持续扩展提供了理论上极具吸引力的技术途径。 中科院自动化所团队 投稿 量子位 | 公众号 QbitAI 大模型参数量飙升至千亿、万亿级,却陷入"规模越大,效率越低" 困境? 中科院自动化所新研究给出破局方案—— 首次让MoE专家告别"静态孤立",开启动态"组队学习" 。 具体而言,MoE本是大语言模型(LLM)实现参数量扩张且计算成本仅呈线性增长的核心路径,却长期受困于负载失衡、参数冗余、通信开销 的"三难困境",成为大模型落地部署的主要瓶颈。 而中科院自动化所的研究团队通过专家集群动态重组,不仅让大模型总参数量 直降80% ,负载方差 降低至原来的三分之一 ,消耗内存更 直 逼轻量级传统稠密模型 ,更一举达成通信延迟、负载均衡、内存占用的三重优化,为大参数LLM的低成本部署提供了新路径。 例如,负载均衡损失函数是一种被动的补偿机制;参数压缩技术(如MoE-Lite)虽减少了参数,却将专家视为独立的实体,忽视了其 ...
不管是中国还是美国最终走向都是人工智能时代是这样吗?
搜狐财经· 2025-10-09 04:55
技术发展格局 - 美国在基础算法、大模型架构及核心专利领域保持优势,其科研生态更注重底层突破 [1] - 中国依托庞大的用户基数、移动互联网积淀及产业链协同,在场景化应用推进速度更快,部分领域体验已超越美国 [1] - 微信AI助手"元宝"实现社交生态无缝集成,腾讯豆包模型推理能力跻身全球第一梯队 [1] 产业生态与政策驱动 - 美国战略强化技术霸权主导地位,通过出口管制、标准制定及盟友合作遏制竞争者,2025年新政策主张放松监管、推动开源 [3] - 中国发挥制造业根基与数据规模优势,聚焦"AI+实体产业"融合,张亚勤指出中国将在5年内成为全球最大AI应用国 [3] - 中国AI发展的核心推力来自成熟的移动生态延续性及产业链协同效应 [3] 核心竞争优势与挑战 - 美国创新重心为基础理论与通用大模型,竞争优势在于学术原创性及全球标准主导,挑战为监管反复与政治干预 [5] - 中国创新重心为场景应用与工程化落地,竞争优势在于商业化速度与市场规模,挑战为核心技术自主性待提升 [5] 未来竞争焦点 - 双方竞赛将围绕智能体普及、混合专家模型降本增效以及多模态融合创造增量市场三大技术主线展开 [7] - 中国在移动互联网时代积累的5-8年领先优势,可能为AI应用层竞争提供关键跳板 [7] - 人工智能作为核心生产力引擎的地位已不可逆,两国终将在AI定义的新经济秩序中深度交织 [7]
冲破 AGI 迷雾,蚂蚁看到了一个新路标
雷峰网· 2025-09-16 18:20
大模型发展瓶颈 - 数据压榨已到尽头 AGI实现面临突破难题 [2][4] - 自回归范式存在单向建模缺陷 导致模型无法逆向推理和修正错误 [16][17][18] - 出现人名截断 语义颠倒 医疗诊断左右混淆等基础错误 [13][15] 当前技术迭代方向 - 马斯克提出提纯数据方案 尝试打开AGI大门 [5] - 多模态成为重点研究方向 Open AI发布GPT-4o实现多模态感知 [7][8] - 斯坦福李飞飞提出视觉是智能基石的观点 [8] 扩散模型新范式突破 - 蓝振忠与李崇轩合作推出LLaDA-MoE模型 基于扩散理论架构 [12][50] - 扩散模型具备并行解码 双向建模和迭代修正三大优势 [32][33][34][35] - 模型在20T高质量数据上训练 总参数量7B 激活参数量1.4B [63][66] 技术性能表现 - LLaDA-MoE在MMLU测试中获得67.18分 超越LLaDA1.0的65.50分 [71] - 在数学任务GSM8K测试中获得82.41分 接近Qwen2.5-3B的86.28分 [71] - 代码任务MultiPL-E测试中获得52.53分 显著优于LLaDA1.0的29.08分 [71] 行业发展意义 - 首次验证MoE架构在扩散语言模型上的放大效应 [71] - 为行业提供全新技术路径 打破自回归范式垄断 [54][72] - 蚂蚁集团开源模型权重和推理引擎 推动社区共同发展 [74][77] 未来挑战 - 生成速度需提升 当前扩散模型每秒仅50token 远低于自回归300token [72] - 更大规模扩展仍需突破 包括block diffusion等技术难题 [72] - 需要更多研究人员参与 加速扩散语言模型生态建设 [73][78]
字节跳动:2025年思考模型Seed-Thinking-v1.5技术报告
搜狐财经· 2025-08-22 17:20
模型性能表现 - 在AIME 2024数学竞赛基准测试中获得86.7分,与OpenAI o3-mini-high持平,显著超越DeepSeek R1的79.8分 [1][5][47] - Codeforces编程测试中pass@8指标达55.0分,接近Gemini 2.5 Pro的56.3分,但落后于OpenAI o3-mini-high的67.5分 [1][5][47] - GPQA科学推理测试获得77.3分,接近o3-mini-high的79.7分 [1][5][47] - 在非推理任务的人类评估中,整体胜率较DeepSeek R1高出8.0% [1][5][51] 模型架构特性 - 采用混合专家模型(MoE)架构,激活参数200亿,总参数2000亿,属于相对紧凑的推理模型 [1][5] - 基于链式思维(CoT)数据进行监督微调,过多非CoT数据会降低模型探索能力 [1][10] - 强化学习训练数据包含STEM问题、代码任务、逻辑推理和非推理数据四类,其中数学数据展现强泛化能力 [1][10][15] 技术创新突破 - 开发VAPO和DAPO框架分别针对演员-评论家及策略梯度范式,解决RL训练不稳定性问题 [1][11][38] - 设计Streaming Rollout System(SRS)缓解长响应生成滞后问题,结合混合精度调度和三层次并行架构提升训练效率 [2][42][43] - 推出Seed-Thinking-Verifier验证器,在人工标注测试集上准确率达99.3%,显著优于Seed-Verifier的82.7% [28][30][31] 基准测试体系 - 构建BeyondAIME高级数学基准,包含100道难度不低于AIME最高水平的原创题目,模型在该基准表现48.0%,落后于o3-mini-high的63.6% [11][25][47] - Codeforces评估采用最近12场竞赛题目,报告pass@1和pass@8指标,更贴合实际用户提交模式 [11][47] - 内部代码沙箱环境实现离线评估与官方平台判决结果强相关性 [20][21] 训练方法论 - 监督微调使用40万训练实例(30万可验证问题+10万非可验证问题),采用32,000令牌长度截断和余弦学习率衰减策略 [34][36] - 强化学习融合可验证数据(验证器评分)、通用数据(奖励模型评分)和混合数据三类来源,通过在线数据分布适配技术减少域间干扰 [37][39] - 采用动态采样、长度自适应GAE和Token级损失等技术创新保障训练稳定性 [40] 资源优化方案 - 混合分布式训练框架整合张量并行(TP)、专家并行(EP)和上下文并行(CP),结合FSDP实现内存优化 [43][46] - 通过层间重计算、激活卸载和优化器卸载技术支持更大微批次训练 [46] - 自动调优系统(AutoTuner)基于性能画像动态选择最优并行配置 [46]
从GPT-2到gpt-oss,深度详解OpenAI开放模型的进化之路
机器之心· 2025-08-18 13:15
模型架构演进 - gpt-oss-120b和gpt-oss-20b是OpenAI自2019年GPT-2后首次发布的开放权重模型,支持本地运行[4][7] - 模型架构延续主流LLM设计,但包含多项优化:移除Dropout、RoPE取代绝对位置嵌入、SwiGLU取代GELU、混合专家(MoE)模块等[17][20][27][37] - 采用分组查询注意力(GQA)和滑动窗口注意力提升计算效率,窗口大小仅128 token[41][47][51] - 使用RMSNorm替代LayerNorm降低计算成本,更适合大规模LLM[52][56] 性能优化技术 - MXFP4量化方案使gpt-oss-20b可在16GB显存GPU运行,120b版本需80GB H100[10][97][99] - 推理工作量分级控制(低/中/高)动态调节响应长度和准确率[94][96] - MoE设计采用32专家/4活跃专家配置,专家参数占比超90%[39][72][77] - 注意力机制引入偏差单元和sinks增强长上下文稳定性[83][87] 行业竞品对比 - 与Qwen3相比:gpt-oss宽度更大(嵌入维度2880vs2048),但深度仅24层vs48层[67][69][70] - 基准测试显示gpt-oss-120b性能接近Qwen3 235B,但参数量仅一半[107][113] - 两者均采用Apache 2.0许可,但gpt-oss未公开训练代码和数据集[88] - 推理能力突出但存在幻觉倾向,设计侧重工具集成而非事实记忆[107][108] 技术趋势观察 - Transformer仍是LLM核心架构,改进多来自数据/算法调整而非架构革命[13] - 模型轻量化需求推动量化技术发展(如MXFP4)[97][99] - 行业向稀疏化(MoE)、注意力优化(GQA/滑动窗口)方向演进[37][41][47] - 开源模型与专有模型性能差距显著缩小[110][114]
赛道Hyper | 追平全球顶级:千问3推理模型开源
华尔街见闻· 2025-08-06 16:06
模型技术特点 - 阿里巴巴开源千问3推理模型采用混合专家MoE架构,总参数达480B(4800亿),原生支持256K token上下文并可扩展至1M长度,显著提升编程任务效率 [1] - MoE架构通过分工协作提升性能并控制计算成本,适用于千亿级以上参数规模模型,实现效率与复杂需求的平衡 [1] - 模型在知识储备、编程能力、数学运算等维度与Gemini-2.5 pro、o4-mini等全球顶级闭源模型水平相当 [1][3] - 支持256K上下文长度,可处理长篇文档和多轮对话,避免关键信息丢失,在复杂问题拆解分析、流畅度和精准度方面较前代明显提升 [3] - Qwen3-235B-A22B-Instruct-2507(非思考版)在GPQA知识测评、AIME25数学测评中成绩超过Claude4等闭源模型 [3] - 训练使用36T tokens数据集覆盖书籍、代码库等多类型数据,通过多轮强化学习整合非思考与思考模型优化综合性能 [9] 性能表现与行业地位 - 在知识测评(SuperGPQA)、编程能力测评(LiveCodeBench v6)中表现接近顶尖闭源模型,在开源模型中处于前列 [3][4] - Qwen3-Coder在多语言SWE-bench测试中超过GPT4.1和Claude4,登顶HuggingFace模型总榜,该榜单综合下载量、使用频率和用户评分排名 [4][5] - 阿里已开源300余款通义大模型,衍生模型数量超过14万个,超过Meta的Llama系列,成为全球最大开源模型家族 [5] - 截至7月25日,千问API调用量在OpenRouter平台突破1000亿Tokens,包揽全球趋势榜前三,反映其受欢迎程度 [6] 实际应用与行业影响 - 程序员借助模型生成基础品牌官网最快仅需5分钟,新入行程序员效率可达到资深程序员一周工作量 [5] - 衍生模型经开发者微调后应用于教育、金融、医疗等行业,例如教育领域生成个性化习题,金融领域进行风险评估 [6] - 模型在法律行业可辅助审查长篇合同并提炼条款风险点,在科研领域快速抓取论文核心内容,节省人工时间 [7] - 开源模型允许中国企业免费商用,降低中小企业AI应用门槛,同时向美国、法国、德国等国家开放,推动技术全球普及 [6] 技术生态与商业协同 - 企业常将模型与阿里云数据库、安全服务打包采购,形成生态闭环,提升云产品使用深度与客户粘性 [6][7] - 模型开源属性降低使用成本,吸引中小开发团队,同时带动对GPU资源和IaaS服务的持续需求 [6][7] - Qwen3-Coder吸引二次开发,开发者添加特定行业代码库(如金融科技)并优化响应速度,适应实时编程场景 [10] - 通义大模型家族推动AI技术从实验室走向实际生产,为各行业提升效率 [10]
DeepSeek再出手!R1升级版性能大提升,美国对手慌了?
金十数据· 2025-05-30 11:52
模型升级内容 - 公司完成DeepSeek R1模型小版本升级 主要强化语义理解精准性 复杂逻辑推理能力 长文本处理稳定性 [1] - 网友测评显示模型理解能力显著提升 激活参数部分可制作交互动画展示 关键信息逻辑更清晰 [1] - 编程能力大幅提升 可一次性生成1000多行无错误代码 性能接近Claude 4 [1] - Hugging Face研究员指出升级后模型在减少幻觉方面有重大改进 显示与顶级模型竞争实力 [1] 模型性能对比 - DeepSeek-V3-0324模型在数学 代码类评测集上超越GPT-4 5和Claude-3 7-Sonnet [1] - V3模型性价比极高 输入价格为Claude-3 7-Sonnet的1/11 GPT-4 5的1/277 且开源可免费商用 [1] - R1-0528版本在LiveCodeBench代码生成排行榜中略低于OpenAI o4 mini和o3推理模型 但超过xAI Grok 3 mini和阿里巴巴Qwen 3 [2] 市场影响 - R1模型1月发布时因多项指标优于西方竞争对手引发全球关注 导致科技股暴跌 [2] - V3模型发布后市场热度下降 焦点转向未发布的R2模型 [2] - R1-0528版本发布再次引发全球媒体关注 被指加剧与OpenAI等美国竞争对手的竞争 [2] - 低成本高性能R1模型推动中国科技股上涨 显示市场对中国AI能力的乐观预期 [2] 未来产品规划 - R2模型预计采用混合专家模型(MoE) 参数量达1 2万亿 单位推理成本较GPT-4大幅降低 [2] - 公司尚未正式确认R2模型发布时间 [2]
中金 • 联合研究 | AI十年展望(二十三):AI+陪伴:技术降本×场景升维,提供深度情绪价值
中金点睛· 2025-05-30 07:39
行业概览 - AI陪伴是目前落地较快、热度较高的AI应用赛道,CharacterAI和Talkie率先达到千万MAU级别 [1] - 2023年全球AI陪伴市场规模约3000万美元,2030年基准/乐观情形下有望达700亿/1500亿美元,2024-2030年CAGR分别为200%/236% [7] - 2018-2023年AI陪伴产品MAU增长近30倍,从不足50万扩大至约1500万,渗透率增速高于社交媒体和在线游戏 [7] 产品核心要素 - 拟人化、个性化、实时互动、沉浸感和养成感是关键要素,满足陪伴、娱乐、幻想和效率提升需求 [2] - 用户集中于年轻群体,对AI容错率较高,更关注情感体验而非精准答复 [8] - 国内应用中星野DAU持续领先(2023年10月-2025年5月从10万增至141万),猫箱增长强劲(2024年3月-2025年5月从0.2万增至109万) [10] 技术驱动 - 混合专家模型(MoE)降低推理成本,DeepSeek-V3实现每人每天1小时交互成本约0.1元,通过缓存和错峰可压缩至0.03-0.05元/人天 [22] - 线性注意力机制将长文本处理复杂度从二次方降为线性,MiniMax-01在128K以上长度测试中超越主流模型 [24] - 多模态能力(图像/音频/视频生成)提升沉浸感,CharacterAI和星野已推出语音交互功能,端到端多模态架构如Gemini和GPT-4o带来效果跃升 [30] 典型应用案例 - **Replika**:全球最早商业化成功的AI陪伴应用,定位情感支持,2024年8月注册用户超3000万,已盈利 [33][35] - **CharacterAI**:技术驱动型,2024年8月MAU达2200万,创始团队来自谷歌LaMDA,采用通用Chatbot视角设计产品 [36][37] - **MiniMax星野**:引入卡牌机制和UGC社区生态,30日用户留存率从2023年10月的39%升至2024年10月的60%以上 [15][43] - **筑梦岛**:聚焦小说场景,80%为女性用户,用户日均对话超120轮,2025年1月注册用户近500万 [44][46] - **字节猫箱**:短剧化+公域社交设计,2024年9月下载量居国内市场第一,累计超500万次 [49][50] - **自然选择EVE**:3D AI伴侣,配备自研情感对话模型Vibe和记忆模型Echo,拟真度高 [53][54] 未来趋势 - 玩法创新是关键胜负手,延展方向包括硬件载体(如AI玩具)、垂直场景(教育/游戏)、用户群体拓展(老人/儿童) [64][65] - AI或成为内容网络中心,传统社交关系弱化,可能出现AI时代的"抖音" [59] - 当前挑战包括技术瓶颈(长时记忆/多智能体协同)、用户留存率低、商业化模式不成熟及算力成本高 [63]
DeepSeek R1模型完成“小版本试升级”,编程、逻辑理解上了一个层次!
华尔街见闻· 2025-05-29 08:57
DeepSeek R1模型更新 - DeepSeek发布R1模型小版本试升级 更新内容包括语义理解精准性、复杂逻辑推理、长文本处理稳定性等方面的强化 [1][2] - 用户测评显示模型理解能力显著提升 可制作交互动画展示激活参数 关键信息逻辑清晰 [3] - 编程能力大幅增强 可一次性生成1000多行无bug代码 性能媲美Claude 4 [4][5] DeepSeek-V3模型表现 - DeepSeek-V3-0324模型全面超越Claude-3.7-Sonnet 在数学和代码类评测中超过GPT-4.5 [6] - 新版DeepSeek-V3与Grok-3并列传统对话类模型榜首 推理任务表现突出 [6] - 性价比优势显著 输入价格仅为Claude-3.7-Sonnet的1/11、GPT-4.5的1/277 且开源免费商用 [6][7] R1模型市场影响 - R1模型性能优于西方竞争对手 成本仅数百万美元 采用低版本英伟达芯片 [7] - R1的崛起引发全球科技股暴跌 市场质疑巨头高投入AI模型的必要性 [8] R2模型预期与进展 - R2原计划5月初发布 目标提升代码生成能力 支持多语言推理 [9] - 公司联合清华大学提出SPCT学习方法 构建DeepSeek-GRM系列模型 引入元奖励模型提升推理扩展性 [9] - 传闻R2将采用混合专家模型 参数量达1.2万亿 较R1提升约1倍 单位推理成本较GPT-4降低97.4% [10] - R2训练全程使用昇腾910B芯片集群 计算性能512 PetaFLOPS 芯片利用率82% 性能达A100集群的91% [10] 市场反应与猜测 - V3模型升级后公司热度下降 市场关注焦点转向R2发布 [9] - 社交媒体猜测R1小升级可能意味着R2尚未准备好 [11]
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
华尔街见闻· 2025-05-29 08:57
混合专家模型技术突破 - 华为盘古团队提出分组混合专家模型(MoGE),通过专家分组机制实现跨设备计算负载均衡,在4K昇腾大规模集群上高效训练 [1] - MoGE架构下盘古Pro MoE大模型(72B总参数/16B激活参数)在昇腾300I Duo和800I A2平台分别实现321 tokens/s和1528 tokens/s的推理速度 [1] - 传统MoE存在专家激活频次高度不均衡问题,导致系统效率瓶颈,而MoGE通过硬约束负载均衡策略解决这一行业难题 [6][7] 模型性能表现 - 盘古Pro MoE以72B总参数量在SuperCLUE榜单获得58.75分,千亿参数量以内大模型排行并列国内第一 [2][3] - 在MMLU-Pro(5-shot)测试中得分63.5,显著高于同规模稠密模型GLM4(55.8)和Gemma3(50.3) [24] - 中文能力突出,在C-Eval(5-shot)和CMMLU(5-shot)分别取得90.6和89.0的EM分数,领先多数对比模型 [24] 技术创新细节 - 采用分组均衡路由技术,将专家均匀划分为M组,每组独立进行Top-K路由,确保组间负载差异为0 [16] - 引入Batch级辅助均衡损失函数,超参数α控制强度,f_i表示批次中被路由到专家i的token占比 [14] - 通过三层架构仿真策略(粗粒度筛选→候选集缩减→算子级仿真)优化昇腾平台亲和性 [15] 硬件适配优化 - 深度融合昇腾300I Duo/800I A2硬件加速架构特性,实现混合并行与通信优化等软硬协同创新 [18] - 在昇腾300I Duo平台单卡吞吐达201 tokens/s,经MTP解码优化提升至321 tokens/s [18] - 对比DeepSeek-V2的专家负载集中现象(最高处理30% token量),盘古Pro MoE实现各专家均匀分布(约12.5%) [26] 行业应用价值 - 推动大模型从参数竞赛转向实效主义,通过动态负载均衡技术降低云端推理成本 [27] - 轻量化推理引擎适配华为昇腾芯片,赋能客户运行百亿级模型,开辟AI产业应用新蓝海 [27] - 在代码生成(HumanEval 63.7 Pass@1)和数学推理(GSM8K 86.5 EM)等复杂任务展现领先性能 [24]