多头潜在注意力机制（MLA）

搜索文档

硬核拆解大模型，从 DeepSeek-V3 到 Kimi K2 ，一文看懂 LLM 主流架构

机器之心· 2025-08-07 17:42

大语言模型架构演进 - 自2019年GPT-2至2024-2025年DeepSeek-V3/LLaMA 4，主流大语言模型架构保持高度一致性，核心改进集中在位置编码、注意力机制和激活函数等细节优化[1] - 位置编码从绝对位置编码发展为旋转位置编码（RoPE），注意力机制从多头注意力（MHA）过渡到分组查询注意力（GQA），激活函数从GELU替换为SwiGLU[1] - 过去七年大语言模型更多是框架内精雕细琢，而非颠覆性创新[2] DeepSeek V3/R1关键技术 - 采用多头潜在注意力机制（MLA），通过将key/value张量压缩至低维潜在空间节省KV缓存内存，相比传统MHA内存占用更低[12][18][21] - 引入专家混合（MoE）架构，每个模块含256个专家但仅激活9个（1共享+8路由选择），总参数量达6710亿但推理计算量可控[23][27][30] - MLA技术最早由DeepSeek V2提出，并非V3首创[22] OLMo 2架构特点 - 采用传统MHA而非GQA或MLA，核心创新在于归一化层设计：使用RMSNorm且置于注意力/前馈模块后（Post-Norm变体）[35][38][39] - 在注意力模块内部引入QK-Norm，对Query/Key进行额外归一化，与Post-Norm结合显著提升训练稳定性[46][47] - 整体架构接近Llama 3，主要差异在于注意力机制和归一化策略[48][52] Gemma 3创新设计 - 采用滑动窗口注意力机制，将全局注意力转为局部注意力，大幅降低KV缓存内存需求[54][56][59] - 在GQA模块同时使用Pre-Norm和Post-Norm，结合两种归一化策略优势，形成独特双重归一化结构[62][64][67] - 滑动窗口注意力可与GQA协同使用，实现计算效率与模型性能平衡[60] Mistral Small 3.1特性 - 24B参数规模下性能超越Gemma 3 27B，归因于定制分词器、更小KV缓存和更少层数[73][75] - 放弃早期滑动窗口注意力设计，改用标准GQA机制[76] Llama 4架构对比 - 采用MoE架构但设计不同于DeepSeek-V3：总参数4000亿（比DeepSeek少68%），每token仅激活2个专家[80][82][84] - 使用GQA而非MLA，MoE层与密集层交替排列（非连续部署），专家隐藏维度达8192[84] Qwen3系列差异化 - 同时提供Dense和MoE版本：0.6B致密模型适合轻量部署，235B MoE模型取消共享专家机制[88][91][94] - MoE架构与DeepSeek-V3高度相似，但专家数量增至8个且移除共享专家[94][95] SmolLM3技术亮点 - 30亿参数规模表现优异，采用无位置嵌入（NoPE）机制，完全移除显式位置编码[101][104][109] - 通过因果注意力掩码隐式学习位置信息，在序列长度泛化方面优于传统位置编码方案[108][109] Kimi K2突破性设计 - 1万亿参数规模为当前最大开源LLM，首次在生产级模型应用Muon优化器替代AdamW[112] - 基于DeepSeek-V3架构扩展，MoE模块专家数更多但MLA注意力头更少[112][116]

理想的VLA可以类比DeepSeek的MoE

理想TOP2· 2025-06-08 12:24

理想VLA与DeepSeek MoE技术类比 - VLA和MoE均为首次完整落地到新领域并取得良好结果均包含大量创新但两者在具体实现方式上存在显著差异 [2] - DeepSeek MoE通过细粒度专家划分将单个专家隐藏层维度缩小至1/4 专家数量增至4倍使激活组合可能性从120种提升至44亿种量级 [2] - 采用共享专家隔离机制设置占总专家数1/8的固定共享专家处理公共知识显著减少不同专家间的知识冗余 [2] 理想VLA核心技术突破 - 需攻克6大关键技术点：MindVLA设计/训练流程 3D空间理解能力获取驾驶知识语言模型构建 Diffusion融合车端实时推理实现 [4] - 3D高斯技术通过RGB图像自监督训练实现多尺度几何表达与丰富语义承载为3D表征提供核心支持 [4] - 基座模型采用MoE架构和稀疏注意力机制在扩容参数量的同时控制推理负担训练数据配比优化减少文史类数据增加3D及自动驾驶图文数据 [6][7] 模型训练与推理优化 - 引入未来帧预测和稠密深度预测任务通过快慢思考双系统设计（快思考直接输出action token 慢思考采用固定简短CoT模板）提升实时性 [8] - 创新并行解码机制：语言逻辑采用因果注意力逐字输出 action token通过双向注意力一次性全输出 [8] - 使用小词表和投机推理技术使CoT效率提升44亿倍量级实现参数规模与推理性能平衡 [8] Diffusion技术应用 - 将action token解码为驾驶轨迹同步生成自车轨迹与周边交通参与者轨迹复杂环境博弈能力提升120% [9] - 采用多层Dit结构支持条件输入改变生成结果（如"开快点"指令响应）类比图像多风格生成技术 [10] - 使用ODE采样器将Diffusion生成步骤压缩至2-3步解决传统方法效率低下问题 [11] 强化学习突破 - 构建端到端可训架构解决早期强化学习中信息传递低效问题 [12] - 通过多视角噪声训练生成模型联合3D重建优化创建真实度达标的训练环境场景建设效率提升20倍 [12] 技术路线演进 - V10-11阶段确实跟随特斯拉技术路线但V12后自主创新比例显著提升仅在快系统部分保留特斯拉框架 [13][14] - 慢系统为完全自主创新特斯拉未涉及该领域整体技术路线类比"增程式"方案：在算力/数据资源不足条件下实现可用性 [14] - VLM到VLA的演进为公司独立提出的技术路径非跟随策略获王兴评价为"真正实现Think Different"的典型案例 [15]