混合专家(MoE)

搜索文档
MiniMax追着DeepSeek打
经济观察网· 2025-06-18 19:32
2025年2月,DeepSeek火爆出圈,除了免费和好用之外,还因其仅以500万至600万美元的GPU成本,就 训练出了与OpenAI o1能力不相上下的DeepSeek R1模型,引起行业震撼,不过这一成本数据也引发了广 泛争议。 MiniMax称,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本仅为53.5万 美元,这一成本"比最初的预期少了一个数量级"。 MiniMax解释,MiniMax M1的强文本处理能力和更低成本,背后是两大核心技术作为支撑,一是线性 注意力机制(Lightning Attention)混合构架和强化学习算法CISPO。例如,CISPO算法通过裁剪重要性 采样权重,而非传统算法中调整Token的更新方式,来提升强化学习的效率和稳定性。 经济观察报 记者 陈月芹 6月17日,MiniMax(稀宇科技)宣布其自主研发的MiniMax M1模型开源,并计划在未来5天内每天发 布一项新产品或新技术。而这款MiniMax M1模型,在关键技术规格、架构设计、上下文处理能力、训 练成本等维度全面对标DeepSeek R1,甚至是谷歌Gemini 2.5 Pro ...
200亿AI独角兽反击,MiniMax首款推理模型对标DeepSeeK,算力成本仅53万美元
华尔街见闻· 2025-06-17 19:57
当DeepSeek的推理模型震撼全球AI圈时,一家估值200亿人民币的中国独角兽正悄然磨刀霍霍,准备用仅53万美元的训练成本和颠覆性架构设 计,向这个新贵发起正面挑战。 17日,AI创业公司MiniMax发布了其首款推理模型M1,根据基准评测,M1性能超越国内闭源模型,接近海外最领先模型,部分任务超过 DeepSeek、阿里、字节,以及OpenAI、谷歌和Anthropic等最新最强的开闭源模型。 这场较量的核心不仅在于性能,更在于效率——与DeepSeek R1相比,在生成64K token时,M1消耗的算力不到其50%;在100K token时,仅为其 25%。 MiniMax称,M1的整个强化学习过程仅使用512块英伟达H800 GPU训练三周,租赁成本53.74万美元(约合380万人民币)。这一成本控制"比最 初预期少了一个数量级"。MiniMax创始人&CEO闫俊杰发文表示:"第一次感觉到大山不是不能翻越。" MiniMax-M1:混合专家架构与线性注意力机制 MiniMax-M1采用了混合专家(MoE)架构和线性注意力机制(Lightning Attention),这是对传统Transformer ...
理想的VLA可以类比DeepSeek的MoE
理想TOP2· 2025-06-08 12:24
理想VLA与DeepSeek MoE技术类比 - VLA和MoE均为首次完整落地到新领域并取得良好结果 均包含大量创新 但两者在具体实现方式上存在显著差异 [2] - DeepSeek MoE通过细粒度专家划分将单个专家隐藏层维度缩小至1/4 专家数量增至4倍 使激活组合可能性从120种提升至44亿种量级 [2] - 采用共享专家隔离机制 设置占总专家数1/8的固定共享专家处理公共知识 显著减少不同专家间的知识冗余 [2] 理想VLA核心技术突破 - 需攻克6大关键技术点:MindVLA设计/训练流程 3D空间理解能力获取 驾驶知识语言模型构建 Diffusion融合 车端实时推理实现 [4] - 3D高斯技术通过RGB图像自监督训练 实现多尺度几何表达与丰富语义承载 为3D表征提供核心支持 [4] - 基座模型采用MoE架构和稀疏注意力机制 在扩容参数量的同时控制推理负担 训练数据配比优化减少文史类数据 增加3D及自动驾驶图文数据 [6][7] 模型训练与推理优化 - 引入未来帧预测和稠密深度预测任务 通过快慢思考双系统设计(快思考直接输出action token 慢思考采用固定简短CoT模板)提升实时性 [8] - 创新并行解码机制:语言逻辑采用因果注意力逐字输出 action token通过双向注意力一次性全输出 [8] - 使用小词表和投机推理技术 使CoT效率提升44亿倍量级 实现参数规模与推理性能平衡 [8] Diffusion技术应用 - 将action token解码为驾驶轨迹 同步生成自车轨迹与周边交通参与者轨迹 复杂环境博弈能力提升120% [9] - 采用多层Dit结构支持条件输入改变生成结果(如"开快点"指令响应) 类比图像多风格生成技术 [10] - 使用ODE采样器将Diffusion生成步骤压缩至2-3步 解决传统方法效率低下问题 [11] 强化学习突破 - 构建端到端可训架构 解决早期强化学习中信息传递低效问题 [12] - 通过多视角噪声训练生成模型 联合3D重建优化 创建真实度达标的训练环境 场景建设效率提升20倍 [12] 技术路线演进 - V10-11阶段确实跟随特斯拉技术路线 但V12后自主创新比例显著提升 仅在快系统部分保留特斯拉框架 [13][14] - 慢系统为完全自主创新 特斯拉未涉及该领域 整体技术路线类比"增程式"方案:在算力/数据资源不足条件下实现可用性 [14] - VLM到VLA的演进为公司独立提出的技术路径 非跟随策略 获王兴评价为"真正实现Think Different"的典型案例 [15]
生于昇腾,快人一步:盘古Pro MoE全链路优化推理系统揭秘
雷峰网· 2025-06-06 17:26
华为软硬协同深度融合优化,强强联合打通推理系统全链路,树立MoE推理标杆。 编辑丨李希 在通往通用人工智能(AGI)的进程中,混合专家(MoE)模型凭借动态稀疏计算优势,成为大模型推理提效的关键路径。华为团队重磅推出昇腾平台原生设 计的Pangu Pro MoE 72B模型,大幅降低计算开销,并在SuperCLUE千亿内模型并列国内第一。通过系统级软硬协同优化、高性能算子融合优化、模型原 生投机算法优化,Pangu Pro MoE推理性能提升6~8倍,在昇腾300I Duo上单卡吞吐可达321 tokens/s,实现极致性价比;在昇腾800I A2上更可飙升至 1528 tokens/s,全面释放硬件潜力,打造极致的推理体验。 技术报告地址:https://gitcode.com/ascend-tribe/ascend-inference-system/tree/main/ 01 推理效率拉满:全链路推理系统优化,释放昇腾澎湃算力 在大模型的分布式推理中,每个计算节点都像一个团队成员,信息流通、协调协作不可避免。就像一场跨部门的大项目,若每一步都开"全员大会",沟通成本 高、效率低,项目推进自然慢半拍。聪明的 ...
上帝视角的昇腾MoE训练智能交通系统,Adaptive Pipe&EDPB让训练效率提升70%
华尔街见闻· 2025-06-03 21:05
混合专家(MoE)模型的发展与挑战 - 混合专家(MoE)模型通过动态路由机制分配输入token给不同专家网络,高效扩展模型参数并提升复杂任务处理能力 [1] - MoE模型在分布式集群训练时面临效率不足问题,主要因计算/通信等待和负载不均导致50%以上训练时间浪费 [2] MoE训练效率的核心瓶颈 - 专家并行(EP)引入All-to-All通信依赖,导致计算单元空闲等待,串行执行模式加剧资源闲置 [2] - 负载不均表现为热专家频繁调用(如部分专家使用率过高)与冷专家闲置,同时数据长度差异和模型层计算量不均导致跨设备等待 [2] 华为的优化方案架构 - 构建AutoDeploy仿真平台,通过三维建模和昇腾硬件映射,1小时内模拟百万次训练场景,精度达90%,为Pangu Ultra MoE 718B模型匹配出TP8/PP16/VPP2/EP32最优并行方案 [4][5] - Adaptive Pipe通信掩盖框架采用层次化All-to-All(跨机器通信加速1倍)和自适应细粒度调度,实现>98%通信掩盖,内存占用减半并降低计算空泡 [6][7] - EDPB全局负载均衡通过专家动态迁移、数据重排和虚拟流水线优化,解决负载不均问题,提升训练吞吐25.5% [10][14] 关键技术实现细节 - 层次化All-to-All分两步完成:跨机器数据块聚合+机内高速交换,减少数据拷贝量 [6] - 专家动态迁移采用多目标优化,预测负载趋势并实现毫秒级响应,结合双层贪心优化架构平衡计算与通信 [12][16] - 数据重排通过线性模型量化计算耗时,贪心算法构建最小耗时序列,保持精度无损下均衡Attention计算负载 [14] 系统整体性能提升 - 在Pangu Ultra MoE 718B模型8K序列训练中,Adaptive Pipe &EDPB方案实现端到端72.6%吞吐提升,类比智慧交通系统解决通信与计算阻塞 [17] - 虚拟流水线技术分离MTP层与输出层,将Embedding计算前移,规避Stage间等待问题 [14][19]
专家一半时间在摸鱼?Adaptive Pipe & EDPB让昇腾MoE训练效率提升70%
雷峰网· 2025-06-03 15:17
" 一半以上训练时间都浪费在了 「 等待 」 。 " 作者丨李希 随着大模型的迅猛发展,混合专家( MoE)模型凭借其独特的架构优势,成为扩展模型能力的重要方 向。MoE通过创新性的路由机制,动态地将输入token分配给不同的专家网络,不仅高效实现了模型参数 的规模化扩展,更在处理复杂任务时展现出显著优势。然而, 将 MoE模型在分布式集群环境下进行训练 时,训练效率不足,已成为亟待解决的难题。 01 MoE大规模训练难题:一半以上的训练时间在等待? 华为构建了名为 AutoDeploy 的 仿真平台 ,它是一个 基于昇腾硬件训练系统的 "数字孪生"平台,通过 计算/通信/内存三维度的多层级建模、昇腾硬件系统的高精度映射、全局化算法加速运行等技术, 能在 1 小时 内模拟 百万次训练场景 , 实现 MoE模型多样化训练负载的快速分析 和自动找到与 集群硬件规格 匹配的最优策略选择。在训练实践验证中,该建模框架可达到 90%精度指标 ,实现低成本且高效的最优 并行选择。 针对 Pangu Ultra MoE 718B 模型,在单卡内存使用约束下,华为通过 AutoDeploy 以训练性能为目标 找到了 TP8/ ...
Linear-MoE:线性注意力遇上混合专家的开源实践
机器之心· 2025-05-29 19:38
线性序列建模的崛起 近年来随着大语言模型的爆火,旨在取代 Transformer 的高效模型架构及其预训练成为大模型领域的研究热点,主要包括线性序列建模(如 Linear Attention、SSM、Linear RNN 等)和混合专家(Mixture-of-Experts, MoE)两部分。这两部分分别都有了长足的进步,但两者的结合却鲜少有人研究, 两者结合后的 Linear-MoE 架构开源实现更是完全缺失。 值得一提的是,近期广受好评的 MiniMax-01 模型(使用 Lightning Attention-MoE)和腾讯混元 TurboS 模型(使用 Mamba2-MoE)均属于 Linear-MoE 架构。 来自上海人工智能实验室团队的最新成果 Linear-MoE,首次系统性地实现了线性序列建模与 MoE 的高效结合,并开源了完整的技术框架,包括 Modeling 和 Training 两大部分,并支持层间混合架构。为下一代基础模型架构的研发提供了有价值的工具和经验。 过去两年,线性序列建模技术取得了显著进展,其核心优势在于线性时间复杂度的训练和恒定内存占用的推理。 这类模型主要分为三大类:线性 ...
速递|Llama 4突袭周末发布!Meta用2万亿参数怪兽硬刚GPT-4.5,却暗禁欧盟用户
Z Finance· 2025-04-06 15:45
文章核心观点 Meta发布新一代AI模型集合Llama 4,该系列模型有新特性和优势,但授权条款或引发争议,且在应答策略上有调整以应对行业问题 [1][2][9] 模型发布情况 - Meta在周六发布Llama 4系列,含Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth四款新模型 [1] - Scout和Maverick已通过Llama.com及Hugging Face等平台开放获取,Behemoth仍在训练阶段 [1] - Meta旗下AI助手Meta AI完成升级,将在40个国家启用Llama 4技术,多模态功能仅限英语版美国用户使用 [1] 研发推动因素 - 中国AI实验室深度求索开源模型成功,性能超Meta前代旗舰Llama模型,推动Llama研发进程加速 [1] - 据传Meta紧急组建战情室,试图破译深度求索降低模型运行和部署成本的技术路径 [1] 授权条款情况 - 欧盟境内注册或主要营业地的用户及企业被禁止使用或分发Llama 4模型,受该地区AI与数据隐私法规合规要求影响 [2] - 月活用户超7亿的企业须向Meta申请特殊授权,Meta拥有绝对审批权 [2] 模型架构特点 - Llama 4是Meta首个采用混合专家(MoE)架构的模型系列,能提升训练及查询应答的算力效率 [4] - MoE架构将数据处理任务分解为子任务,交由小型专业化“专家”模型处理 [4] 模型参数情况 - Maverick总参数量达4000亿,通过128个“专家”模型仅激活170亿参数 [4] - Scout激活170亿参数,包含16个专家模型,总参数量1090亿 [4] - Behemoth激活参数达2880亿,包含16个专家模型,总参数近2万亿 [6] 模型性能表现 - Maverick在编程、推理等测试中超越OpenAI的GPT - 4o和谷歌Gemini 2.0,但逊色于部分最新顶级模型 [5] - Scout在文档摘要和大规模代码库推理任务有优势,拥有1000万token的超大上下文窗口 [5] - Behemoth在数学解题等STEM能力评估中表现优于部分模型,但不及Gemini 2.5 Pro [6] 模型架构差异 - Llama 4全系均未采用类似OpenAI o1和o3 - mini的专用“推理”架构 [9] 模型应答策略调整 - Meta对Llama 4全系模型调优,使其更少拒绝回答“争议性”问题,回应涉及政治社会议题的提问 [9] - Meta表示新模型在拒绝回答的提示词选择上“显著更平衡” [9] 行业相关问题 - AI偏见是行业公认的技术难题,马斯克自创的xAI公司也未能造出完全政治中立的聊天机器人 [9] - OpenAI等公司持续调整模型策略,使其能应答更多过往被规避的问题 [10]
成本降低20%!蚂蚁集团用国产芯片训练AI
国芯网· 2025-03-25 12:46
国芯网[原:中国半导体论坛] 振兴国产半导体产业! 不拘中国、 放眼世界 ! 关注 世界半导体论坛 ↓ ↓ ↓ 3月25日消息,据外媒报道,蚂蚁集团成功使用包括阿里巴巴和华为在内的国产芯片,结合混合专家 (MoE)机器学习方法,训练人工智能(AI)模型,成本降低约20%。 测试结果显示,该技术可媲美英伟达H800芯片的性能。虽然蚂蚁集团仍在使用英伟达芯片进行AI开 发,但其最新模型已主要依赖包括超威半导体(AMD)及中国国产芯片的替代方案。 对此,蚂蚁集团方面回应称,蚂蚁针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进 展,也会逐步通过开源分享。 业内观点认为,在美国对华高端芯片出口限制背景下,蚂蚁集团这一步意义重大,这说明中国基本已经 突破了美国的半导体制裁。 此外,蚂蚁集团开源Ling系列模型框架及训练策略,也可推动国产AI技术普惠化,降低中小企业和研究 机构入局门槛。 ***************END*************** 半导体公众号推荐 第二步:在公众号里面回复"加群",按照提示操作即可。 爆料|投稿|合作|社群 文章内容整理自网络,如有侵权请联系沟通 投稿 或 商务合作 请 ...
速递|蚂蚁集团突破技术封锁:国产芯片助力AI训练成本直降20%,性能媲美英伟达H800
Z Finance· 2025-03-24 17:50
图片来源:蚂蚁金服 据彭博社报道,蚂蚁集团正采用中国制造的半导体技术开发人工智能模型训练方案,并有望将成本降 低20%。 根据报道,蚂蚁集团正携手关联企业阿里巴巴及华为,共同推进基于国产芯片的混合专家(MoE)机 器学习模型训练。该方案在性能表现上可与英伟达的H800芯片相媲美。值得注意的是,虽然蚂蚁集 团仍在AI开发中部分使用英伟达产品,但其最新模型已主要转向包括AMD及国产芯片在内的替代方 案。 这一技术突破标志着蚂蚁集团正式加入中美科技企业的竞争行列。自DeepSeek展示出以远低于 OpenAI和谷歌数十亿美元投资训练强大模型的可能性后,这场竞争愈发激烈。蚂蚁集团的实践凸显 了中国企业如何通过本土化替代方案突破技术封锁。尽管H800并非最尖端产品,但作为一款高性能 处理器,其已被列入美国对华出口管制清单。 蚂蚁集团本月发布的研究论文宣称,其模型在部分基准测试中已超越Meta Platforms 的表现。若这一 成果属实,蚂蚁集团的平台将为中国人工智能发展注入新动能,特别是在降低AI服务推理成本方面具 有重要意义。 随着全球企业对人工智能的持续投入,多级模型已成为行业热点,谷歌与杭州初创企业DeepSe ...