混合专家(MoE)架构

搜索文档
MiniMax追着DeepSeek打
经济观察网· 2025-06-18 19:32
2025年2月,DeepSeek火爆出圈,除了免费和好用之外,还因其仅以500万至600万美元的GPU成本,就 训练出了与OpenAI o1能力不相上下的DeepSeek R1模型,引起行业震撼,不过这一成本数据也引发了广 泛争议。 MiniMax称,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本仅为53.5万 美元,这一成本"比最初的预期少了一个数量级"。 MiniMax解释,MiniMax M1的强文本处理能力和更低成本,背后是两大核心技术作为支撑,一是线性 注意力机制(Lightning Attention)混合构架和强化学习算法CISPO。例如,CISPO算法通过裁剪重要性 采样权重,而非传统算法中调整Token的更新方式,来提升强化学习的效率和稳定性。 经济观察报 记者 陈月芹 6月17日,MiniMax(稀宇科技)宣布其自主研发的MiniMax M1模型开源,并计划在未来5天内每天发 布一项新产品或新技术。而这款MiniMax M1模型,在关键技术规格、架构设计、上下文处理能力、训 练成本等维度全面对标DeepSeek R1,甚至是谷歌Gemini 2.5 Pro ...
200亿AI独角兽反击,MiniMax首款推理模型对标DeepSeeK,算力成本仅53万美元
华尔街见闻· 2025-06-17 19:57
当DeepSeek的推理模型震撼全球AI圈时,一家估值200亿人民币的中国独角兽正悄然磨刀霍霍,准备用仅53万美元的训练成本和颠覆性架构设 计,向这个新贵发起正面挑战。 17日,AI创业公司MiniMax发布了其首款推理模型M1,根据基准评测,M1性能超越国内闭源模型,接近海外最领先模型,部分任务超过 DeepSeek、阿里、字节,以及OpenAI、谷歌和Anthropic等最新最强的开闭源模型。 这场较量的核心不仅在于性能,更在于效率——与DeepSeek R1相比,在生成64K token时,M1消耗的算力不到其50%;在100K token时,仅为其 25%。 MiniMax称,M1的整个强化学习过程仅使用512块英伟达H800 GPU训练三周,租赁成本53.74万美元(约合380万人民币)。这一成本控制"比最 初预期少了一个数量级"。MiniMax创始人&CEO闫俊杰发文表示:"第一次感觉到大山不是不能翻越。" MiniMax-M1:混合专家架构与线性注意力机制 MiniMax-M1采用了混合专家(MoE)架构和线性注意力机制(Lightning Attention),这是对传统Transformer ...
速递|Llama 4突袭周末发布!Meta用2万亿参数怪兽硬刚GPT-4.5,却暗禁欧盟用户
Z Finance· 2025-04-06 15:45
文章核心观点 Meta发布新一代AI模型集合Llama 4,该系列模型有新特性和优势,但授权条款或引发争议,且在应答策略上有调整以应对行业问题 [1][2][9] 模型发布情况 - Meta在周六发布Llama 4系列,含Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth四款新模型 [1] - Scout和Maverick已通过Llama.com及Hugging Face等平台开放获取,Behemoth仍在训练阶段 [1] - Meta旗下AI助手Meta AI完成升级,将在40个国家启用Llama 4技术,多模态功能仅限英语版美国用户使用 [1] 研发推动因素 - 中国AI实验室深度求索开源模型成功,性能超Meta前代旗舰Llama模型,推动Llama研发进程加速 [1] - 据传Meta紧急组建战情室,试图破译深度求索降低模型运行和部署成本的技术路径 [1] 授权条款情况 - 欧盟境内注册或主要营业地的用户及企业被禁止使用或分发Llama 4模型,受该地区AI与数据隐私法规合规要求影响 [2] - 月活用户超7亿的企业须向Meta申请特殊授权,Meta拥有绝对审批权 [2] 模型架构特点 - Llama 4是Meta首个采用混合专家(MoE)架构的模型系列,能提升训练及查询应答的算力效率 [4] - MoE架构将数据处理任务分解为子任务,交由小型专业化“专家”模型处理 [4] 模型参数情况 - Maverick总参数量达4000亿,通过128个“专家”模型仅激活170亿参数 [4] - Scout激活170亿参数,包含16个专家模型,总参数量1090亿 [4] - Behemoth激活参数达2880亿,包含16个专家模型,总参数近2万亿 [6] 模型性能表现 - Maverick在编程、推理等测试中超越OpenAI的GPT - 4o和谷歌Gemini 2.0,但逊色于部分最新顶级模型 [5] - Scout在文档摘要和大规模代码库推理任务有优势,拥有1000万token的超大上下文窗口 [5] - Behemoth在数学解题等STEM能力评估中表现优于部分模型,但不及Gemini 2.5 Pro [6] 模型架构差异 - Llama 4全系均未采用类似OpenAI o1和o3 - mini的专用“推理”架构 [9] 模型应答策略调整 - Meta对Llama 4全系模型调优,使其更少拒绝回答“争议性”问题,回应涉及政治社会议题的提问 [9] - Meta表示新模型在拒绝回答的提示词选择上“显著更平衡” [9] 行业相关问题 - AI偏见是行业公认的技术难题,马斯克自创的xAI公司也未能造出完全政治中立的聊天机器人 [9] - OpenAI等公司持续调整模型策略,使其能应答更多过往被规避的问题 [10]