“DeepSeek-V3基于我们的架构打造”，欧版OpenAI CEO逆天发言被喷了

Mistral CEO关于DeepSeek-V3架构言论引发的争议 - Mistral联合创始人兼CEO Arthur Mensch在访谈中表示，中国在AI领域实力强劲，并称其公司是最早发布开源模型的公司之一[2] - Arthur Mensch声称，Mistral在2024年初发布了首个稀疏混合专家模型，而DeepSeek-V3及后续版本都是在此基础上构建的，采用了相同的架构[3] - 此言论引发了网友的广泛质疑和批评，认为其说法与事实不符[5] 关于MoE论文发布时间与架构差异的论证 - 网友指出，DeepSeek的MoE论文与Arthur Mensch提到的Mixtral论文在arXiv上的发布时间仅相差3天[6] - 两篇论文虽都研究稀疏混合专家系统，但出发点不同：Mixtral偏向工程思维，旨在证明强大基础模型与成熟MoE技术的结合能超越更大稠密模型[14]；而DeepSeek的核心在于算法创新，旨在解决传统MoE中专家学习混杂和重复的问题，是对MoE架构的重新设计[15] - 数学公式直观展示了架构区别：Mixtral采用标准Top-2路由机制[18]；DeepSeek则改变了传统门控机制和专家结构，引入了共享专家和细粒度专家分割[19] - 在专家粒度和数量上，Mixtral沿用标准设计，每个专家是一个完整的FFN块[20]；DeepSeek则提出细粒度专家分割，将大专家切分为许多小专家，以实现更灵活的组合和更精准的知识习得[20] - 在路由机制上，Mixtral所有专家地位平等，由路由网络动态选择[21]；DeepSeek引入了不参与路由、总是被激活的共享专家，使得通用知识与特定知识解耦，共享专家负责通用知识，路由专家负责特定知识[22] 关于Mistral后续产品与行业影响力的讨论 - 有网友提到，2025年12月发布的Mistral 3 Large被发现直接沿用了DeepSeek-V3的架构[23] - 网友批评Arthur Mensch的言论是在试图“通过岁月史书来挽回面子”，并指出不可否认的是DeepSeek最终在稀疏MoE、MLA等技术上获得了更大的影响力[24][26] - 有网友吐槽Mistral已不再是当初惊艳开源大模型圈的公司，变成了“屠龙者终成恶龙”[28] - 行业竞逐仍在继续，例如DeepSeek被曝已经瞄准了春节档发布新模型[30]