Mistral 3 Large
搜索文档
“DeepSeek-V3基于我们的架构打造”,欧版OpenAI CEO逆天发言被喷了
36氪· 2026-01-26 15:44
Mistral CEO关于DeepSeek-V3架构来源的言论引发争议 - Mistral联合创始人兼CEO Arthur Mensch在访谈中表示,中国在AI领域实力强劲,并指出DeepSeek-V3及后续版本是在Mistral于2024年初发布的首个稀疏混合专家模型架构基础上构建的,两家公司采用了相同的架构[1] - 该言论在网络上引发了广泛质疑和批评,有网友直接指责Mistral在胡说八道,并认为其试图通过“岁月史书”来挽回面子[2][15] 双方稀疏混合专家模型的技术对比与发布时间 - Mistral的Mixtral论文与深度求索的DeepSeek论文在arXiv上的发表时间仅相差3天,两者研究的都是稀疏混合专家系统,旨在通过稀疏激活降低计算成本并提升模型能力[4][9] - 尽管目标相似,但两者的技术思路存在根本区别:Mixtral偏向工程思维,旨在证明强大基础模型与成熟MoE技术结合可超越更大稠密模型;而DeepSeek的核心在于算法创新,旨在解决传统MoE中专家“学得太杂”和“重复学习”的问题,是对MoE架构的重新设计[9] DeepSeek-V3与Mixtral的架构差异分析 - 在专家结构上,Mixtral沿用了标准MoE设计,每个专家是一个完整的FFN块;DeepSeek则提出了细粒度专家分割,在总参数量不变的情况下将大专家切分为许多小专家,以实现更灵活的组合和更精准的知识习得[11] - 在路由机制上,两者都采用GShard风格的Top-K路由器,但DeepSeek改变了传统门控机制和专家结构,引入了不参与路由、总是被激活的共享专家,而路由专家参与Top-K竞争[11] - 架构差异导致知识分布不同:Mixtral的知识分布是扁平的,通用与特定知识混杂在同一专家内;DeepSeek的知识分布是解耦的,共享专家负责通用知识,路由专家负责特定知识[12] 关于Mistral后续模型被指采用DeepSeek架构的争议 - 有网友指出,于2025年12月发布的Mistral 3 Large基本上照搬了DeepSeek-V3采用的架构[6][13] - 网友认为,不可否认的是深度求索最终在稀疏MoE、MLA等技术上获得了更大的影响力,并批评Mistral已不再是当初惊艳开源圈的公司[14][17] 行业动态与后续发展 - 围绕基础模型的竞争将持续,深度求索被曝已经瞄准了春节档发布新模型[19] - 相关论文链接显示,Mixtral论文发布于2024年1月,DeepSeek论文紧随其后[19]