硬核拆解大模型，从 DeepSeek-V3 到 Kimi K2 ，一文看懂 LLM 主流架构

大语言模型架构演进 - 自2019年GPT-2至2024-2025年DeepSeek-V3/LLaMA 4，主流大语言模型架构保持高度一致性，核心改进集中在位置编码、注意力机制和激活函数等细节优化[1] - 位置编码从绝对位置编码发展为旋转位置编码（RoPE），注意力机制从多头注意力（MHA）过渡到分组查询注意力（GQA），激活函数从GELU替换为SwiGLU[1] - 过去七年大语言模型更多是框架内精雕细琢，而非颠覆性创新[2] DeepSeek V3/R1关键技术 - 采用多头潜在注意力机制（MLA），通过将key/value张量压缩至低维潜在空间节省KV缓存内存，相比传统MHA内存占用更低[12][18][21] - 引入专家混合（MoE）架构，每个模块含256个专家但仅激活9个（1共享+8路由选择），总参数量达6710亿但推理计算量可控[23][27][30] - MLA技术最早由DeepSeek V2提出，并非V3首创[22] OLMo 2架构特点 - 采用传统MHA而非GQA或MLA，核心创新在于归一化层设计：使用RMSNorm且置于注意力/前馈模块后（Post-Norm变体）[35][38][39] - 在注意力模块内部引入QK-Norm，对Query/Key进行额外归一化，与Post-Norm结合显著提升训练稳定性[46][47] - 整体架构接近Llama 3，主要差异在于注意力机制和归一化策略[48][52] Gemma 3创新设计 - 采用滑动窗口注意力机制，将全局注意力转为局部注意力，大幅降低KV缓存内存需求[54][56][59] - 在GQA模块同时使用Pre-Norm和Post-Norm，结合两种归一化策略优势，形成独特双重归一化结构[62][64][67] - 滑动窗口注意力可与GQA协同使用，实现计算效率与模型性能平衡[60] Mistral Small 3.1特性 - 24B参数规模下性能超越Gemma 3 27B，归因于定制分词器、更小KV缓存和更少层数[73][75] - 放弃早期滑动窗口注意力设计，改用标准GQA机制[76] Llama 4架构对比 - 采用MoE架构但设计不同于DeepSeek-V3：总参数4000亿（比DeepSeek少68%），每token仅激活2个专家[80][82][84] - 使用GQA而非MLA，MoE层与密集层交替排列（非连续部署），专家隐藏维度达8192[84] Qwen3系列差异化 - 同时提供Dense和MoE版本：0.6B致密模型适合轻量部署，235B MoE模型取消共享专家机制[88][91][94] - MoE架构与DeepSeek-V3高度相似，但专家数量增至8个且移除共享专家[94][95] SmolLM3技术亮点 - 30亿参数规模表现优异，采用无位置嵌入（NoPE）机制，完全移除显式位置编码[101][104][109] - 通过因果注意力掩码隐式学习位置信息，在序列长度泛化方面优于传统位置编码方案[108][109] Kimi K2突破性设计 - 1万亿参数规模为当前最大开源LLM，首次在生产级模型应用Muon优化器替代AdamW[112] - 基于DeepSeek-V3架构扩展，MoE模块专家数更多但MLA注意力头更少[112][116]