“DeepSeek-V3基于我们的架构打造”,欧版OpenAI CEO逆天发言被喷了
量子位·2026-01-26 12:45

Mistral CEO关于DeepSeek-V3架构言论引发的争议 - Mistral联合创始人兼CEO Arthur Mensch在访谈中表示,中国在AI领域实力强劲,并称其公司是最早发布开源模型的公司之一[2] - Arthur Mensch声称,Mistral在2024年初发布了首个稀疏混合专家模型,而DeepSeek-V3及后续版本都是在此基础上构建的,采用了相同的架构[3] - 此言论引发了网友的广泛质疑和批评,认为其说法与事实不符[5] 关于MoE论文发布时间与架构差异的论证 - 网友指出,DeepSeek的MoE论文与Arthur Mensch提到的Mixtral论文在arXiv上的发布时间仅相差3天[6] - 两篇论文虽都研究稀疏混合专家系统,但出发点不同:Mixtral偏向工程思维,旨在证明强大基础模型与成熟MoE技术的结合能超越更大稠密模型[14];而DeepSeek的核心在于算法创新,旨在解决传统MoE中专家学习混杂和重复的问题,是对MoE架构的重新设计[15] - 数学公式直观展示了架构区别:Mixtral采用标准Top-2路由机制[18];DeepSeek则改变了传统门控机制和专家结构,引入了共享专家和细粒度专家分割[19] - 在专家粒度和数量上,Mixtral沿用标准设计,每个专家是一个完整的FFN块[20];DeepSeek则提出细粒度专家分割,将大专家切分为许多小专家,以实现更灵活的组合和更精准的知识习得[20] - 在路由机制上,Mixtral所有专家地位平等,由路由网络动态选择[21];DeepSeek引入了不参与路由、总是被激活的共享专家,使得通用知识与特定知识解耦,共享专家负责通用知识,路由专家负责特定知识[22] 关于Mistral后续产品与行业影响力的讨论 - 有网友提到,2025年12月发布的Mistral 3 Large被发现直接沿用了DeepSeek-V3的架构[23] - 网友批评Arthur Mensch的言论是在试图“通过岁月史书来挽回面子”,并指出不可否认的是DeepSeek最终在稀疏MoE、MLA等技术上获得了更大的影响力[24][26] - 有网友吐槽Mistral已不再是当初惊艳开源大模型圈的公司,变成了“屠龙者终成恶龙”[28] - 行业竞逐仍在继续,例如DeepSeek被曝已经瞄准了春节档发布新模型[30]