Workflow
混合专家(MoE)模型
icon
搜索文档
蚂蚁、OpenAI、DeepSeek卷疯了!国产最强万亿参数旗舰模型Ling-1T开源
钛媒体APP· 2025-10-09 12:14
蚂蚁集团Ling-1T模型发布 - 蚂蚁集团发布并开源万亿参数通用语言模型Ling-1T,该模型是百灵大模型Ling 2.0系列的首款旗舰模型,也是其规模最大、能力最强的非思考大模型[2][3] - 在有限输出Token条件下,Ling-1T于多项复杂推理基准中取得SOTA表现,在代码生成、软件开发、竞赛数学、专业数学、逻辑推理等高难度基准测试上多项指标位居开源模型榜首[3] - 以竞赛数学榜单AIME 25为例,Ling-1T以平均4000+ Token消耗达到70.42%的准确率,优于Gemini-2.5-Pro的5000+ Token消耗和70.10%准确率,展现出更高的性价比、推理精度和思考效率[3] - Ling-1T沿用Ling 2.0架构,在20T+ tokens高质量高推理浓度语料上完成预训练,支持最高128K上下文窗口,通过演进式思维链提升高效思考和精准推理能力[11] - 该模型全程采用FP8混合精度训练,为已知规模最大的使用FP8训练的基座模型,带来显著的显存节省、更灵活的并行切分策略和15%+的端到端加速[11] - 在强化学习阶段,团队创新性提出以句子为粒度的策略优化算法LPO和新的混合奖励机制,在ArtifactsBench前端能力基准上得分达59.31,在可视化和前端开发任务领域位居开源模型榜首[12] - 除了非思考模型Ling-1T,蚂蚁百灵团队还在训练万亿参数级的深度思考大模型Ring-1T,并于9月30日开源了preview版[14] 全球AI大模型竞争格局 - 国庆中秋假期前后,OpenAI、阿里、智谱、DeepSeek等中美AI大模型加速竞争[4] - 零一万物创始人李开复指出,底座基础模型是一场千亿级别公司的"军备竞赛"[5] - OpenAI发布AI视频模型Sora2,并公布GPT-5 Pro、ChatGPT框架Apps SDK等[9] - DeepSeek发布DeepSeek-V3.2-Exp,全面适配国产算力卡,训练推理提效且API同步降价[9] - 阿里通义发布新一代原生全模态大模型Qwen3-Omni,以及全开源通义DeepResearch模型、框架、方案等[9] - 智谱发布旗舰模型GLM-4.6,凭借SOTA的Agentic Coding能力登顶Hugging Face Trending全球第一、LMArena开源第一全球第四,与Qwen Max Preview并列国内第一[9] AI行业投资与基础设施趋势 - 英伟达CEO黄仁勋指出过去六个月AI计算需求大幅上升,新一代架构Blackwell芯片需求"非常非常高",标志着"新一轮工业革命"开始[6] - 英伟达计划未来十年向OpenAI共计投资1000亿美元,支持部署需要10千兆瓦电力的英伟达系统,相当于400万至500万个GPU[6] - OpenAI CEO奥尔特曼表示技术突破关键在于更聪明的模型、更长的上下文处理能力和更好的记忆系统,AGI的核心在于发现新知识并扩展人类知识边界[6] - 今年以来全球AI领域初创公司已吸引创纪录的1927亿美元风险投资,2025年有望成为首个逾一半风投资金流入AI行业的年份[15] - 最近一个季度,美国风险投资将62.7%的资金投向AI领域公司,全球风险投资该比例为53.2%;今年以来全球风投总额为3668亿美元,其中美国风投达2502亿美元[16] - OpenAI近期完成66亿美元融资,目前估值达5000亿美元,成为全球最有价值的初创公司;其今年前七个月收入大约翻了一番,预计年收入将达120亿美元,并已签下总额近1万亿美元的算力采购协议[16] 蚂蚁集团AI技术战略 - 蚂蚁AGI团队由集团副总裁、首席技术官何征宇负责,其拥有佐治亚理工学院计算机博士学位,曾就职于谷歌并创立开源项目gVisor[11] - 百灵大模型计划聚焦在生活服务、金融服务、医疗健康等场景[11] - 蚂蚁团队认为模型需要能在异构计算单元和分布式集群间切换的技术框架,目标为"不使用高级GPU"来扩展模型[10] - 今年3月,蚂蚁集团利用AI Infra技术开发了两个百灵系列开源MoE模型Ling-Lite和Ling-Plus,参数规模分别为168亿和2900亿,并公布了语音AI框架Ming‑UniAudio、新一代推理模型Ring-flash-2.0等产品[10]
生于昇腾,快人一步:盘古Pro MoE全链路优化推理系统揭秘
雷峰网· 2025-06-06 17:26
华为昇腾平台与Pangu Pro MoE模型优化 核心观点 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型,通过软硬协同优化实现推理性能提升6~8倍,在昇腾300I Duo和800I A2上分别达到321 tokens/s和1528 tokens/s的吞吐量 [2] - 采用分层混合并行(H2P)、通信优化(TopoComm)、计算通信融合(DuoStream)等创新技术,显著提升分布式推理效率 [4][6][8] - 开发MulAttention和SwiftGMM两大融合算子,分别实现Attention计算加速4.5倍和GMM计算加速2.1倍,解码时延降低48.7% [15][18] 技术优化细节 系统级优化 - **H2P分层混合并行**:针对Attention模块采用DP2+TP4并行,Expert模块采用TP2+EP4策略,共享专家TP8全芯并行,Decode吞吐性能比纯TP方案提升33.1% [4][5] - **TopoComm通信优化**:SlimRing算法降低同步次数35%,NHD算法提高链路有效带宽21%,混合量化通信策略压缩数据25%,AllGather耗时降低39% [6] - **DuoStream多流融合**:通过GMMRS和AGMM策略实现通信与计算流水掩盖,最大化释放硬件潜力 [10] 算子级优化 - **MulAttention算子**:优化KV缓存搬运,访存带宽利用率达87%,数据搬运流水占用率89%,Attention计算加速4.5倍 [15] - **SwiftGMM算子**:动态切换GEMV/GEMM模式,结合智能分块缓存和双缓存机制,解码阶段整网时延降低48.7% [18] 推理算法创新 - **PreMoE动态剪枝**:通过PEP和TAER技术动态加载相关专家,保持准确率同时推理吞吐提升10%+ [22] - **TrimR反思压缩**:用小模型监测大模型思考过程,异常时终止推理,步数降低14% [23] - **SpecReason投机推理**:小模型生成假设后大模型验证,推理吞吐提升30% [23] 性能表现 昇腾800I A2 - 4卡部署下,大并发场景(BS=456)单卡吞吐1148 tokens/s,较72B/32B稠密模型提升97%/18% [26] - 结合MTP投机推理,单卡BS提升至146,平均时延95.56ms,最高吞吐1528 tokens/s [26][28] 昇腾300I Duo - 预填充阶段2卡2路并发下2k序列输入延迟1.94s,单卡吞吐1055 tokens/s [29] - 解码阶段小并发延迟50ms,大并发(BS=80)单卡吞吐201 tokens/s,MTP优化后最高达321 tokens/s [29][31]
上帝视角的昇腾MoE训练智能交通系统,Adaptive Pipe&EDPB让训练效率提升70%
华尔街见闻· 2025-06-03 21:05
混合专家(MoE)模型的发展与挑战 - 混合专家(MoE)模型通过动态路由机制分配输入token给不同专家网络,高效扩展模型参数并提升复杂任务处理能力 [1] - MoE模型在分布式集群训练时面临效率不足问题,主要因计算/通信等待和负载不均导致50%以上训练时间浪费 [2] MoE训练效率的核心瓶颈 - 专家并行(EP)引入All-to-All通信依赖,导致计算单元空闲等待,串行执行模式加剧资源闲置 [2] - 负载不均表现为热专家频繁调用(如部分专家使用率过高)与冷专家闲置,同时数据长度差异和模型层计算量不均导致跨设备等待 [2] 华为的优化方案架构 - 构建AutoDeploy仿真平台,通过三维建模和昇腾硬件映射,1小时内模拟百万次训练场景,精度达90%,为Pangu Ultra MoE 718B模型匹配出TP8/PP16/VPP2/EP32最优并行方案 [4][5] - Adaptive Pipe通信掩盖框架采用层次化All-to-All(跨机器通信加速1倍)和自适应细粒度调度,实现>98%通信掩盖,内存占用减半并降低计算空泡 [6][7] - EDPB全局负载均衡通过专家动态迁移、数据重排和虚拟流水线优化,解决负载不均问题,提升训练吞吐25.5% [10][14] 关键技术实现细节 - 层次化All-to-All分两步完成:跨机器数据块聚合+机内高速交换,减少数据拷贝量 [6] - 专家动态迁移采用多目标优化,预测负载趋势并实现毫秒级响应,结合双层贪心优化架构平衡计算与通信 [12][16] - 数据重排通过线性模型量化计算耗时,贪心算法构建最小耗时序列,保持精度无损下均衡Attention计算负载 [14] 系统整体性能提升 - 在Pangu Ultra MoE 718B模型8K序列训练中,Adaptive Pipe &EDPB方案实现端到端72.6%吞吐提升,类比智慧交通系统解决通信与计算阻塞 [17] - 虚拟流水线技术分离MTP层与输出层,将Embedding计算前移,规避Stage间等待问题 [14][19]
专家一半时间在摸鱼?Adaptive Pipe & EDPB让昇腾MoE训练效率提升70%
雷峰网· 2025-06-03 15:17
MoE模型训练效率挑战 - 混合专家(MoE)模型通过动态路由机制分配token给不同专家网络,实现参数规模化扩展和复杂任务处理优势[2] - 分布式训练中存在两大效率瓶颈:1)专家并行引入计算与通信等待,导致50%以上训练时间浪费在空闲等待[3][4];2)负载不均导致热专家过载而冷专家闲置[4] - 问题类比为城市交通拥堵:1)人车混行阻塞(计算等待通信);2)车道分配僵化(静态专家分配)[4] AutoDeploy仿真平台 - 基于昇腾硬件的数字孪生平台,通过三维建模和高精度硬件映射,1小时内模拟百万次训练场景,实现90%精度的最优并行策略自动选择[8] - 针对Pangu Ultra MoE 718B模型,自动求解出TP8/PP16/VPP2/EP32并行方案,平衡计算/通信/内存[8] Adaptive Pipe通信优化 - 采用层次化All-to-All通信:分机器间数据收集和机器内高速交换两步,相比传统All-to-All加速1倍[10] - 自适应细粒度调度将流水线并行内存占用减半,实现98%以上EP通信掩盖,计算几乎不受通信等待束缚[11] EDPB负载均衡技术 - 专家预测动态迁移(E):通过多目标优化实现专家跨设备智能流动,具备预测先行/双层优化/智能触发三大特性[17] - 数据重排(D)和虚拟流水线均衡(P)分别解决Attention计算不均和混合结构层间等待问题[19] - 整体在最优并行基础上带来25.5%吞吐提升[14] 系统综合收益 - 在Pangu Ultra MoE 718B模型8K序列训练中,Adaptive Pipe单独提升37.5%,EDPB再提升25.5%,端到端总吞吐提升达72.6%[22][23] - 方案类比为智慧交通系统:通信掩盖相当于行人地下通道,动态迁移相当于智能可变车道[22]