Mixtral
搜索文档
“DeepSeek-V3基于我们的架构打造”,欧版OpenAI CEO逆天发言被喷了
36氪· 2026-01-26 15:44
Mistral CEO关于DeepSeek-V3架构来源的言论引发争议 - Mistral联合创始人兼CEO Arthur Mensch在访谈中表示,中国在AI领域实力强劲,并指出DeepSeek-V3及后续版本是在Mistral于2024年初发布的首个稀疏混合专家模型架构基础上构建的,两家公司采用了相同的架构[1] - 该言论在网络上引发了广泛质疑和批评,有网友直接指责Mistral在胡说八道,并认为其试图通过“岁月史书”来挽回面子[2][15] 双方稀疏混合专家模型的技术对比与发布时间 - Mistral的Mixtral论文与深度求索的DeepSeek论文在arXiv上的发表时间仅相差3天,两者研究的都是稀疏混合专家系统,旨在通过稀疏激活降低计算成本并提升模型能力[4][9] - 尽管目标相似,但两者的技术思路存在根本区别:Mixtral偏向工程思维,旨在证明强大基础模型与成熟MoE技术结合可超越更大稠密模型;而DeepSeek的核心在于算法创新,旨在解决传统MoE中专家“学得太杂”和“重复学习”的问题,是对MoE架构的重新设计[9] DeepSeek-V3与Mixtral的架构差异分析 - 在专家结构上,Mixtral沿用了标准MoE设计,每个专家是一个完整的FFN块;DeepSeek则提出了细粒度专家分割,在总参数量不变的情况下将大专家切分为许多小专家,以实现更灵活的组合和更精准的知识习得[11] - 在路由机制上,两者都采用GShard风格的Top-K路由器,但DeepSeek改变了传统门控机制和专家结构,引入了不参与路由、总是被激活的共享专家,而路由专家参与Top-K竞争[11] - 架构差异导致知识分布不同:Mixtral的知识分布是扁平的,通用与特定知识混杂在同一专家内;DeepSeek的知识分布是解耦的,共享专家负责通用知识,路由专家负责特定知识[12] 关于Mistral后续模型被指采用DeepSeek架构的争议 - 有网友指出,于2025年12月发布的Mistral 3 Large基本上照搬了DeepSeek-V3采用的架构[6][13] - 网友认为,不可否认的是深度求索最终在稀疏MoE、MLA等技术上获得了更大的影响力,并批评Mistral已不再是当初惊艳开源圈的公司[14][17] 行业动态与后续发展 - 围绕基础模型的竞争将持续,深度求索被曝已经瞄准了春节档发布新模型[19] - 相关论文链接显示,Mixtral论文发布于2024年1月,DeepSeek论文紧随其后[19]
“DeepSeek-V3基于我们的架构打造”,欧版OpenAI CEO逆天发言被喷了
量子位· 2026-01-26 12:45
Mistral CEO关于DeepSeek-V3架构言论引发的争议 - Mistral联合创始人兼CEO Arthur Mensch在访谈中表示,中国在AI领域实力强劲,并称其公司是最早发布开源模型的公司之一[2] - Arthur Mensch声称,Mistral在2024年初发布了首个稀疏混合专家模型,而DeepSeek-V3及后续版本都是在此基础上构建的,采用了相同的架构[3] - 此言论引发了网友的广泛质疑和批评,认为其说法与事实不符[5] 关于MoE论文发布时间与架构差异的论证 - 网友指出,DeepSeek的MoE论文与Arthur Mensch提到的Mixtral论文在arXiv上的发布时间仅相差3天[6] - 两篇论文虽都研究稀疏混合专家系统,但出发点不同:Mixtral偏向工程思维,旨在证明强大基础模型与成熟MoE技术的结合能超越更大稠密模型[14];而DeepSeek的核心在于算法创新,旨在解决传统MoE中专家学习混杂和重复的问题,是对MoE架构的重新设计[15] - 数学公式直观展示了架构区别:Mixtral采用标准Top-2路由机制[18];DeepSeek则改变了传统门控机制和专家结构,引入了共享专家和细粒度专家分割[19] - 在专家粒度和数量上,Mixtral沿用标准设计,每个专家是一个完整的FFN块[20];DeepSeek则提出细粒度专家分割,将大专家切分为许多小专家,以实现更灵活的组合和更精准的知识习得[20] - 在路由机制上,Mixtral所有专家地位平等,由路由网络动态选择[21];DeepSeek引入了不参与路由、总是被激活的共享专家,使得通用知识与特定知识解耦,共享专家负责通用知识,路由专家负责特定知识[22] 关于Mistral后续产品与行业影响力的讨论 - 有网友提到,2025年12月发布的Mistral 3 Large被发现直接沿用了DeepSeek-V3的架构[23] - 网友批评Arthur Mensch的言论是在试图“通过岁月史书来挽回面子”,并指出不可否认的是DeepSeek最终在稀疏MoE、MLA等技术上获得了更大的影响力[24][26] - 有网友吐槽Mistral已不再是当初惊艳开源大模型圈的公司,变成了“屠龙者终成恶龙”[28] - 行业竞逐仍在继续,例如DeepSeek被曝已经瞄准了春节档发布新模型[30]
Llama论文作者“出逃”,14人团队仅剩3人,法国独角兽Mistral成最大赢家
36氪· 2025-05-27 16:57
Meta AI人才流失与Mistral崛起 核心观点 - Meta开源大模型Llama的核心团队大规模流失,14位论文作者中仅剩3人留任,多数加入巴黎AI初创公司Mistral或Anthropic、DeepMind等竞争对手 [3][4][6][9] - Mistral由Meta前研究员创立,已吸收一整支前Meta团队,其模型Mixtral和Tiny Mistral在评测中表现优异,成为Meta直接竞争对手 [8][14][15] - Meta开源战略与公司实际发展脱节,Llama系列迭代速度落后于DeepSeek等新势力,且缺乏具备多步推理能力的升级版本 [10][11][12] 人才流动路径 Meta人才迁徙 - Llama架构奠基者Guillaume Lample和Timothée Lacroix于2023年初离职创立Mistral,后续Marie-Anne Lachaux等多名核心成员陆续加入 [6][8] - 离职研究员平均任职超5年,流向包括Anthropic、微软AI等一线机构及Kyutai等二线研究组织,形成系统性认知重构 [9] - FAIR实验室领导层变更,原负责人Joelle Pineau离职,团队方向从"开放共享"转向"应用效率",加速人才流失 [13] 行业竞争格局变化 Meta的战略困境 - Llama 2曾为HuggingFace最受欢迎模型,但Llama 3/4迭代缓慢,未推出类似GPT-4 Turbo的推理增强版本 [11] - 内部最大模型Behemoth发布推迟,团队对性能与方向存在分歧,产品节奏落后于竞争对手 [12] - 开源策略虽获得开发者好评,但公司资源投入与技术创新速度不匹配 [10][11] Mistral的快速扩张 - 创立1个月即获1亿美元种子轮融资,估值达60亿美元,推出Pixtral、Medium 3等多模型家族 [17][19] - 产品覆盖多模态、STEM编程及边缘部署,近期扩展至阿拉伯语等非英语市场 [17] - 商业化面临挑战:营收仅千万美元级别,主力模型未完全开源,用户生态仍以欧洲为主 [19] 技术路线演变 开源模式对比 - Meta通过Llama开放权重推动开源浪潮,但后续进展乏力;Mistral早期采用Apache 2.0协议,商业化后转向"两轨制"策略 [10][19] - Mistral模型设计强调参数规模与效果平衡,更贴合实际部署需求,形成差异化竞争力 [14][17] - 行业转向多步推理和工具整合能力,Meta在该领域明显落后于OpenAI和Google [11][12]
喝点VC|a16z关于DeepSeek的内部复盘:推理模型革新与20倍算力挑战下的AI模型新格局
Z Potentials· 2025-03-23 13:10
文章核心观点 - DeepSeek R1作为高性能推理模型代表开源透明特性推动行业技术发展[3][4] - 推理模型通过多阶段训练实现自我反思和链式思维显著提升复杂问题解决能力[11][13][20] - 模型创新聚焦计算效率优化包括MLA架构和GRPO算法降低训练与推理成本[30][31] - 开源模型生态加速应用创新使本地设备运行高性能AI成为可能[36][37] DeepSeek技术架构 - 采用多头潜注意力机制(MLA)优化KV向量存储效率支持扩展上下文长度至128K[30] - 引入耦合绳(couple rope)技术解决位置向量丢失问题提升长文本处理能力[30] - 使用FP8混合精度训练和GRPO采样算法提升训练效率减少计算资源消耗[30][31] 多阶段训练流程 - 预训练阶段基于互联网全量数据使用H100 GPU集群进行下一代token预测[6][27] - 有监督微调(SFT)使用人类生成示例教导模型直接输出答案而非自动补全[7][9] - 基于人类反馈的强化学习(RLHF)通过偏好评分优化答案质量[9][10] - R1训练包含两次SFT和两次RL阶段累计使用80万条样本(60万数学代码+20万创造性写作)[26] 模型性能突破 - R1答案长度从1000 tokens增至1万 tokens实现20倍推理量增长[20] - 在数学编程等可验证领域通过自我纠错机制实现答案准确率提升[13][22] - 蒸馏版本在7B参数设备运行效果优于直接应用RL训练[35][38] 行业影响与趋势 - 推理模型需求推动GPU算力增长20倍测试时计算成为新瓶颈[31][33] - 开源模型促使多厂商性能差距缩小行业竞争从数据规模转向训练方法创新[34] - 550万美元训练成本显示高效实验设计重要性(最终测试仅占小部分成本)[27][29] 应用场景拓展 - 本地化部署支持MacBook等设备通过Ollama开源软件实现离线推理[36] - 量化技术进一步降低设备门槛推动边缘计算场景落地[37] - 可验证领域(数学/代码/谜题)成为推理模型优先落地方向[14][26]