Workflow
万字解析DeepSeek MOE架构!
自动驾驶之心·2025-08-15 07:33

作者 | 浮生梦晓 编辑 | 大模型之心Tech 原文链接: https://zhuanlan.zhihu.com/p/21584562624 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 >> 点击进入→ 大模型没那么大Tech技术交流群 本文只做学术分享,如有侵权,联系删文 ,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 正文开始前的碎碎念 MOE全称是Mixture of Experts,也就是混合专家模型,本人最早关注到MOE架构是23年底Mistral.AI发布的Mixtral 8*7B模型,记得当时这个模型引 爆了这个AI圈对于MOE稀疏架构的关注,很多人(包括我)才开始关注到MOE架构,陆陆续续的看了一些MOE应用在Transformer架构上的相关论 文,包括GShard、Switch Transformer等,现在来看,其实MOE架构存在的时间很久远,在Transformer架构没有出现之前就已经针对机器学习的模 型进行过应用,最早像1991年就有《Adaptive Mixtures of Local Exp ...