稀疏注意力
搜索文档
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
36氪· 2026-01-14 16:39
行业架构演进趋势 - 核心观点:Transformer架构在未来至少一至几年内仍将保持其作为AI生态系统基石的地位,但行业竞争焦点正从单纯追求模型参数规模,转向对效率提升和混合架构的精细化探索[4] - 行业正经历从“大力出奇迹”到追求“效率”与“混合”的微调转变,而非彻底的架构推倒重来[4] - 2026年的竞争主旋律是在保持模型巨大容量的同时极致压缩推理成本,竞争维度扩展至在更长的上下文和更低的延迟下提供同等智能[5][9] 效率优化技术路径 - 混合专家模型架构允许模型在拥有6710亿参数的同时,每次推理仅激活370亿参数,显著降低推理成本[5] - 行业通过采用多头潜在注意力等机制显著减少推理时的KV Cache占用[5] - 为应对标准注意力机制O(N^2)的复杂度问题,行业探索混合策略,例如将高效的线性层与全注意力层以一定比例混合,以平衡长距离依赖捕捉与推理速度[8] - 除混合专家模型外,行业出现了更激进的效率尝试,例如采用稀疏注意力机制,通过只计算最重要的Token间相互作用来降低计算开销[5][8] 扩散语言模型的潜力与挑战 - 扩散语言模型采用并行生成Token的方式,与自回归模型的串行生成不同,使其能够以相对快速且低廉的成本生成Token[10] - 扩散模型在作为智能体使用时面临巨大挑战,因其并行生成的特性难以在响应链中原生地整合工具调用[11] - 尽管扩散模型推理效率更高,但研究表明若为匹配自回归模型性能而增加去噪步数,最终计算预算可能相差无几[11] - 在高质量数据日益枯竭的背景下,扩散语言模型展现出作为“超级数据学习者”的潜力,当数据量受限时,其表现可能优于标准自回归大语言模型[12][17] - 研究表明,一个10亿参数的扩散语言模型,仅通过反复训练10亿个Token,在HellaSwag和MMLU基准测试上分别达到了超过56%和超过33%的准确率[19] - 对于扩散语言模型,验证集损失的上升并不意味着下游能力的下降,即便看似“过拟合”,其在代码生成、推理等实际任务上的表现仍可能提升[20] 扩散模型的数据学习优势 - 扩散模型能学习文本中任意位置之间的依赖关系,而自回归模型通常被迫只能从左到右学习[21] - 通过迭代的双向去噪过程,扩散语言模型在训练时对每个样本进行了更深度的信息压榨[21] - 扩散过程本身作为一种内置的蒙特卡洛增强,同一句子每次加噪方式不同,相当于将一条数据变为无数条变体,增强了数据利用效率[21]
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
机器之心· 2026-01-14 15:18
文章核心观点 - 行业认为Transformer架构在未来至少一至几年内仍将是AI生态系统的基石,但竞争焦点正从单纯追求模型规模转向效率优化和混合架构[4][5] - 扩散语言模型因其并行生成特性和在数据稀缺条件下的学习优势,成为2026年值得关注的新兴变量,但其在工具调用方面的缺陷限制了其作为智能体的应用[11][12][19] 效率战争:混合架构与线性注意力的崛起 - 行业近期重点转向混合架构与效率提升,例如DeepSeek V3采用混合专家模型和多头潜在注意力,在拥有6710亿参数的情况下,每次推理仅激活370亿参数,显著降低了推理成本[7] - 多家公司推出效率导向的模型变体,如Qwen3-Next、Kimi Linear、Nvidia Nemotron 3以及采用稀疏注意力的DeepSeek V3.2[7] - 标准Transformer注意力机制具有O(N²)的计算复杂度,导致长上下文处理成本剧增,因此行业正积极研发线性注意力或稀疏注意力等方案以降低计算开销[9] - 2026年的竞争核心在于如何在更长的上下文和更低的延迟下,提供同等的模型性能[10] - 部分模型采用混合策略,例如将高效的线性层与全注意力层以一定比例混合,以平衡长距离依赖捕捉能力和推理速度[14] 扩散语言模型:速度与代价的博弈 - 扩散语言模型采用并行生成方式,能够以相对快速且低廉的成本生成Token,其生成过程被类比为从噪声中并行“冲洗”出整段文字[12] - 行业预测Google可能在2026年推出Gemini Diffusion,作为其更便宜的Flash模型的替代品,并强调其生成速度“明显快于我们目前最快的模型”[12] - 扩散模型并行生成的特性导致其无法在响应链中原生地整合工具调用,这使其在作为智能体应用时面临巨大挑战[13][15] - 研究表明,若为了匹配自回归模型的性能而增加扩散模型的去噪步数,其最终计算成本可能与自回归模型相差无几[17] 数据枯竭时代的「超级学习者」 - 在互联网高质量文本数据接近枯竭的背景下,扩散语言模型可能成为更好的数据学习者[18][24] - 研究论文《Diffusion Language Models are Super Data Learners》指出,当进行多轮次训练时,文本扩散模型的表现可能优于标准的自回归大语言模型[19][25] - 在数据量受限的情况下,扩散语言模型通过增加训练轮数,其表现持续超越自回归模型,例如一个10亿参数的扩散语言模型,仅通过反复训练10亿个Token,就在HellaSwag和MMLU基准测试上分别达到了超过56%和超过33%的准确率[26][27] - 对于扩散语言模型,验证集损失的上升并不一定意味着下游任务能力的下降,即使看似“过拟合”,其在代码生成、推理等任务上的表现可能仍在提升[28] - 扩散模型具备任意顺序建模、超高密度计算以及内置的蒙特卡洛增强等特性,使其能从有限数据中进行更高效的学习[31]
北大袁境阳:稀疏注意力机制让模型 10 倍加速——Attention
36氪· 2026-01-07 15:58
文章核心观点 - 原生稀疏注意力机制是一种从架构层面重新设计的注意力机制,旨在解决大模型处理超长上下文时面临的计算与访存瓶颈,其目标是在预训练阶段就以稀疏方式工作,并在推理阶段实现显著加速且不损失模型性能 [4][5][6] - NSA通过将注意力分解为压缩、选择和滑动窗口三条并行路径,并将稀疏性提升为结构原则,使模型能够学习如何以稀疏的方式运作,从而实现了效率与性能的兼得 [8][18] - NSA的成功不仅依赖于算法创新,更依赖于与现代GPU硬件特性的深度耦合,通过重新设计计算内核以优化访存模式,解决了稀疏注意力在硬件上实际加速的核心挑战 [9][20][30] 技术架构与设计原理 - NSA采用三分支架构:压缩路径负责对遥远Token进行块级聚合,提供全局轮廓和重要性评分;选择路径基于评分挑选关键块以保留细节;滑动窗口路径确保对局部上下文的完整建模,三条路径通过可学习的门控机制融合 [5][8][17] - 该架构使稀疏性成为结构学习过程的自然结果,模型在预训练中可通过反向传播直接学习最优的稀疏模式,无需依赖人工设计的启发式规则 [8][10] - 滑动窗口分支为训练初期提供了稳定的局部注意力通道,确保模型能先建立稳固的短程依赖关系,避免了因过早稀疏化而导致的学习不稳定 [16][17][22] 性能表现与效率提升 - 在一个27B参数(采用GQA与MoE)的模型上,NSA在64k上下文长度下,训练前向速度可达全注意力的约9倍,反向速度可达6倍 [6] - 在解码阶段,NSA将KV缓存访存量降至全注意力的大约十分之一,实现了接近理论上限的11.6倍加速 [6] - 在MMLU、GSM8K、DROP等通用基准测试上,NSA模型性能不逊于全注意力模型;在LongBench、64k Needle-in-a-Haystack等长上下文任务上表现更优;在AIME 24数学推理中,即使在8k或16k生成窗口内也展现出更可靠的链式推理精度 [6] 硬件协同与工程实现 - NSA专为GPU访存特性设计,其以连续Token块为基本操作单元的结构与GPU访存方式天然兼容,通过新的Triton内核实现同一GQA组内多头共享稀疏后的KV索引,并一次性连续加载KV块到SRAM,最大化Tensor Core利用率 [5][9] - 传统闪电注意力机制内核假设数据访问是密集且连续的,无法有效支持稀疏、动态的访问模式,NSA通过统一GQA组内的KV块加载,从根本上改变了稀疏注意力的硬件访问模式,将优化重点从减少计算量转向减少访存 [19][20][30] - 现代GPU显存带宽相对容量更为稀缺,迫使行业模型设计必须考虑访问的稀疏性和选择性,以保障解码阶段的每秒生成Token数,NSA正是在这种硬件现实下的必然选择 [24][27][29] 行业意义与发展趋势 - 超长上下文处理能力正成为大模型的核心竞争力,但标准全注意力的平方复杂度已成为系统瓶颈,在64k上下文下,Softmax注意力可占据70%–80%的解码延迟 [4] - 随着智能体、检索增强生成、长序列推理、强化学习等后训练阶段任务的重要性上升,算力消耗急剧增加,要求模型架构必须支持全生命周期的稀疏化高效训练,NSA为此提供了可行的基础架构方向 [23][31][33] - 未来的大模型优化将更侧重于“后训练架构”创新,NSA展示了一种可能性:通过让架构本身吸收稀疏性,可以重塑模型从预训练到部署全周期的计算效率 [32][33]
DeepSeek的小更新,暴打了OpenAI,追上了Gemini
36氪· 2025-12-03 08:58
模型发布与性能表现 - DeepSeek于2025年12月1日发布两款新模型DeepSeek V3.2和DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2与GPT-5性能相当,而高性能版DeepSeek-V3.2-Speciale与闭源模型天花板Gemini表现相当 [5] - 新模型在国际数学奥林匹克(IMO 2025)、中国数学奥林匹克(CMO 2025)等比赛中获得金牌 [5] - 在多项基准测试中,DeepSeek-V3.2-Speciale表现优异:AIME 2025得分96.0(23k)、HMMT Feb 2025得分99.2(27k)、CodeForces得分2701(77k) [6] - 这是公司今年第九次发布模型 [6] 技术创新与架构改进 - 公司将稀疏注意力(DSA)技术正式应用于主力模型,通过为模型添加"目录"机制优化长文本处理能力 [9][13] - 稀疏注意力技术使模型在处理长句子时推理成本保持稳定,而传统V3.1模型的推理成本随句子长度增加而显著上升 [14][16] - 公司重视开源模型的后训练工作,在预训练结束后投入超过总训练算力10%的资源进行强化学习训练 [17] - DeepSeek-V3.2-Speciale取消了思考长度限制,鼓励模型进行深度思考,实现与Gemini 3相当的性能 [19][20] 训练数据与Agent能力提升 - 模型后训练使用了24667个真实代码环境任务、50275个真实搜索任务、4417个合成通用agent场景、5908个真实代码解释任务 [22] - 公司优化了工具使用流程,在工具调用过程中保持思考过程连续性,仅当用户提出新问题时才重置推理链 [23] - 公司特别重视模型在智能体(Agent)方面的能力建设 [24] 效率与成本优势 - 虽然DeepSeek-V3.2-Speciale回答相同问题需要8077个Tokens,比Gemini的4972个Tokens高出约六成,但成本优势明显 [30][32] - DeepSeek处理问题成本为0.0032美元,而Gemini处理相同问题成本为0.06美元,DeepSeek成本优势达20倍 [33] - 公司通过算法创新而非单纯堆砌参数实现技术进步,包括V2的MoE、V3的多头潜在注意力(MLA)、Math V2的自验证机制等 [39]
再谈注意力:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进丨晚点播客
晚点LatePost· 2025-12-02 17:13
注意力机制演进背景 - 传统全注意力机制计算开销随文本长度呈平方级暴增,是限制模型处理长文档的关键瓶颈[5] - 注意力机制改进的两个主要方向是"稀疏注意力"和"线性注意力"[5] - 阿里巴巴和月之暗面在2024年9月和10月底先后开源Qwen3-Next和Kimi Linear模型,其中的注意力机制都使用了线性注意力DeltaNet和全注意力混合的方式[5] DeltaNet与线性注意力技术核心 - 线性注意力的核心思想是将自注意力中的Softmax函数移除,经过数学等价变换可重写成循环神经网络的递推形式,将复杂度从平方级降至线性[12] - DeltaNet利用Delta Rule来更快地写入和更新权重,基于2021年LSTM作者团队的论文《线性Transformer本质上是快速权重编程器》的思路[13] - 线性注意力默认使用赫布学习进行权重更新,为实现更高效的上下文检索能力可替换为更强大的Delta Rule[14] - DeltaNet在2021年被提出后不火的原因包括缺少关键架构改进和实现不够好,后续通过并行化优化使其能大规模训练[20] - Gated DeltaNet在DeltaNet基础上加衰减,可视为DeltaNet与Mamba 2的结合,保留当代架构思路同时继承更强的Delta Rule更新[21] 行业应用与厂商策略 - 阿里巴巴Qwen3-Next团队对全局注意力、混合滑窗注意力、Mamba 2和Gated DeltaNet做了对比,结果Gated DeltaNet表现最好并被采用[23] - Kimi Linear使用的KDA是Gated DeltaNet的细粒度版,将衰减从粗到细,每个channel有独立的遗忘率用于存储不同时间尺度的信息[24] - 线性注意力与全注意力混合使用的原因是线性注意力提供速度优势但容量小,全注意力提供容量优势但推理速度慢[24] - MiniMax在4560亿参数的MoE M1上使用混合线性注意力与全注意力的Lightning Attention,但在M2中又回归完全注意力,主要因混合架构在多跳推理任务上准确率下降明显[26][27][28] - DeepSeek更相信稀疏注意力,其MLA和DeepSeek-Sparse-Attention都是稀疏注意力的改进[29] 技术对比与未来潜力 - 稀疏注意力通过减少激活的KV Cache读取来加速,单层潜力更强,但当KV Cache大小本身成为瓶颈时则无能为力[30] - 线性注意力有理论缺陷因状态空间固定,但混合架构中75%的层被换成RNN后,KV Cache大小减少3/4,可支持更大批量推理[30] - 在数据受限的后训练和强化学习中,线性注意力因更关注邻近token可能表现更好,因其带有归纳偏见[31][32] - 从电路复杂度看,完全注意力属于TC⁰,而DeltaNet是NC¹-complete架构,更擅长状态追踪,这对Agentic AI至关重要[33] - 架构改进需满足两个scalable关键点:大规模训练下效率要有保证且硬件友好,模型放大后依然有效[35] 未来发展方向 - 稀疏注意力的核心趋势是动态稀疏,难点在于硬件上高效实现,现有block级和token级两条技术路线[46] - 线性注意力未来更值得探索更新规则,考虑DeltaNet外还有哪些更新方式既能更好并行实现又更具表达力[48] - 理想方向是将稀疏注意力和线性注意力结合,用稀疏注意力混线性注意力的组合替代完全注意力层,以降低KV cache规模[49] - 持续学习是重要方向,需解决如何让模型持续吸收外界信息而无需隔段时间重训,具有显著商业价值如个性化服务[50] - 测试时训练或快速权重编程允许处理新token后实时更新权重,可能解决长文本问题和实现持续学习[51]
DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了
机器之心· 2025-10-21 11:43
技术突破与核心优势 - 全新模型DeepSeek-OCR实现技术突破,将1000字文章压缩为100个视觉token,压缩率达十倍,精度高达97% [1] - 单块英伟达A100每天可处理20万页数据,极大提升长上下文处理效率 [1] - 视觉token压缩效率比文本token高出10倍,例如1万英文单词原本对应15000个文本token,现仅需约1500个视觉token即可完整表示 [9] - 该方法可能解决大模型领域的长上下文效率问题,并为大幅扩展模型有效上下文长度(如一千万至两千万token级别)提供潜力路径 [1][12] 行业影响与社区反响 - 模型开源后迅速获得AI社区关注,GitHub项目一晚收获超过4000个Star [1] - OpenAI联合创始成员Andrej Karpathy肯定其作为OCR模型的价值,并引发对“像素是否比文本更适合作为LLM输入”的范式转变思考 [3][5] - 研究者认为该方法颠覆了传统多模态LLM中视觉token效率低下的观念,使视觉表示文本成为更高效的选择 [9] - 技术思路被与谷歌Gemini模型可能采用的核心技术相联系,但DeepSeek-OCR的可贵之处在于完全开源模型权重与方法细节 [12] 潜在应用场景 - 高压缩效率使将公司所有关键内部文档塞进提示词前缀并缓存成为可能,实现快速且经济地查询而无需搜索工具 [12] - 可将整个代码库放入上下文中缓存,每次修改仅需追加差异部分内容,提升开发效率 [13] - 技术若与DeepSeek早前发布的稀疏注意力机制DSA结合使用,前景将更加令人兴奋 [11] - 已有开发者成功在英伟达Spark硬件和Mac上部署该模型,例如Django框架联合创建者使用4个提示词在40分钟内完成部署 [14][15] 技术渊源与学界评价 - 核心方法思路并非首创,早在2022年哥本哈根大学等机构的论文《Language Modelling with Pixels》已提出类似思想,其PIXEL模型通过渲染文本为图像解决词汇瓶颈问题 [18][20] - 后续有多篇研究成果对此思路进行发展和改进,包括CVPR 2023的CLIPPO模型和NeurIPS 2024、2025的相关论文 [21][24] - 有批评声音指出该方法不存在渐进性,不像人类,例如Meta研究者Lucas Beyer的评论 [25] - 纽约大学助理教授谢赛宁对Karpathy的评论深感共鸣,其本人曾将Transformer架构与扩散模型结合提出DiT,为文生视频开辟新道路 [5][8]
人工智能专题:DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能
中原证券· 2025-10-16 19:46
报告行业投资评级 - 行业投资评级:强于大市(维持)[1] 报告核心观点 - DeepSeek的稀疏注意力机制(特别是NSA和DSA)通过提升计算效率和拓展模型上下文,为AI产业释放了更大的发展潜能,将成为推动模型能力不断突破的重要支撑[8][37] 注意力机制与大模型发展的关系 - 注意力机制模仿人类选择性关注关键信息的能力,解决了长序列遗忘问题[11] - 稀疏注意力将计算复杂度从O(L²)降至亚平方级(如O(L*log L)、O(L*k)),突破内存与算力瓶颈[11] - 经过多代技术迭代,大模型上下文已扩充到128K甚至是1M的长度水平[11] DeepSeek在注意力机制方面的技术改进 - MLA:DeepSeek在V2中引入多头潜在注意力,将注意力分数的显存占用减少约90%,成为R1成本显著低于头部模型的重要因素[12][16] - NSA:2025年2月提出的原生稀疏注意力,通过算法和硬件协同优化,将长文本处理速度提升11倍,可实现与全注意力模型相当或更优的性能[8][18] - DSA:2025年9月V3.2-Exp引入的稀疏注意力机制,带来训练推理效率大幅提升,API价格大幅降价超50%[8][23] DSA和NSA的技术特点对比 - NSA参与整个预训练过程,DSA基于V3.1-Terminus基座继续预训练而来,可低成本进行稀疏注意力探索[27] - DSA通过TileLang实现,NSA选用OpenAI开源的Triton,TileLang可实现更多深度优化,更有利于国产芯片生态适配[27] - DSA通过"闪电索引器"逐词判断找出重要词汇(2048个)进行细粒度稀疏计算,NSA将文本分成"块"分三层挑重点[30] 稀疏注意力对AI产业的影响 - 稀疏注意力带来的计算效率提升和模型上下文拓展,将为后训练释放更大的发展潜能[37] - V3.2-Exp的API调用价格显著降低:输入缓存命中时价格为R1的20%(0.2元/百万Tokens),输入缓存未命中时为R1的50%(2元/百万Tokens),输出价格为R1的19%(3元/百万Tokens)[23] - 成本的下降意味着模型具有更好的性价比和可推广性,将促进应用端实现更多功能落地[23]
第二代InfLLM开源,同尺寸快三倍,零参数,可训练稀疏注意力
36氪· 2025-10-09 20:12
核心技术特点 - InfLLM-V2是一种可高效处理长文本的稀疏注意力模型,通过动态切换短长文本处理模式,显著提升长上下文任务的效率与质量 [1] - 该方法仅需5B的长文本词元即可完成稀疏注意力的训练,而DeepSeek-V3.2-Exp训练了近1T词元的数据 [1] - 核心优势包括低成本训练、短到长无缝切换效率双优、以及硬件友好的高效算子实现 [2] - 采用零额外参数、长短无缝切换的可训练稀疏路径,仅用一套共享键值缓存,与稠密注意力在参数与计算方式上完全对齐 [6] 性能表现 - 相比于稠密注意力机制可以实现4倍的速度提升,在长文本理解任务上保持98.1%的稠密模型性能,在深思考任务上保持99.7%的稠密模型性能 [1] - 在128K长文本中,InfLLM-V2可实现4-9倍算子加速比,端到端评测中在prefill与decode分别实现约2.1×与2.3×加速 [13] - 在RULER、LongBench与LongPPL等长文本理解评测中,InfLLM-V2实现了与稠密注意力模型完全可比的性能 [9] - 在数学、代码深思考任务中,InfLLM-V2能够实现与稠密注意力可比的性能,而NSA方法对模型效果有较大损害 [11] 产品应用与对比 - 基于InfLLM-V2架构发布了首个开源的原生稀疏注意力模型MiniCPM4和混合思考版本MiniCPM4.1 [17] - MiniCPM4.1在LiveCodeBench、AIME等代码、数学推理测试中,推理速度比Qwen3-8B等同尺寸开源模型快3倍以上 [17] - 在众多深思考任务上取得综合平均分同尺寸模型第一,在AIME24达到80.83分,AIME25达到72.08分 [18] - 与传统NSA方法相比,InfLLM-V2解决了三套独立KV缓存与三种注意力分支的设计问题,训练更稳定 [6]
万亿的OpenAI,涨疯的Memory和新出炉的DeepSeek
傅里叶的猫· 2025-09-29 23:11
万亿的OpenAI - 英伟达与OpenAI的合作涉及四个领域:持续推进微软Azure数据中心建设、与甲骨文及软银合作搭建OCI算力设施、支持CoreWeave的算力需求、以及助力OpenAI自建AI基础设施[2] - OpenAI预测到2029年公司营收将达到1250亿美元,并计划斥资1万亿美元在全球建设数据中心以满足20GW以上计算能力需求,每GW成本预计高达500亿美元[3][4] - OpenAI计算能力储备将超过得州数据中心的13倍以上,支持下一代AI所需的能源规模相当于为超过1300万美国家庭供电,相当于17座核电站级别的电力需求[3][4] - 英伟达计划向OpenAI投入高达1000亿美元用于建设由10GW英伟达系统驱动的超级数据中心,该设施相当于400万到500万台英伟达GPU,总成本预计达5000亿至6000亿美元[4][5] - CoreWeave等基础设施提供商与OpenAI签署了价值65亿美元的协议,使其总合作金额达224亿美元,微软也宣布将在英国投资300亿美元增强AI基础设施[4] 涨疯的Memory - 服务器生意因DDR涨价导致预留利润空间被吃掉,需与客户重新谈价,DDR5和NAND Flash价格因AI基础设施建设需求推动而上涨[6][10] - 2025年4月开始三星和SK海力士逐步减少DDR4产能转向DDR5、LPDDR5和HBM,9月闪迪和美光宣布存储产品价格上涨10%-30%[10] - 2025年服务器DRAM ASP预计全年同比增长18%,2026年预计同比增长36%;2025年NAND ASP预计全年同比增长15%,2026年预计同比增长31%[11][13] - 2025年DDR4 64GB RDIMM价格从139美元上涨至251美元,全年涨幅29%;DDR5 64GB RDIMM价格从253美元上涨至278美元,全年涨幅7%[12] - 2026年DDR5 64GB RDIMM价格预计从295美元上涨至360美元,全年涨幅30%,DDR5渗透率预计从90%提升至92%[12] - 随着推理需求增加,Memory需求将持续增长,此轮涨价可能并非短期现象[14] 新出炉的DeepSeek - DeepSeek V3.2-Exp实现对华为、寒武纪芯片的Day 0级别适配,暗示存在深度联合开发基础,夯实了国产化三层架构根基[18] - 从V3.1到V3.2的迭代周期仅耗时1个月,展现出高效开发节奏,按此进度V4有望在不久后推出[19] - 团队开源V3.2版本的CUDA算子,同时引入TileLang新编程范式,采用"成熟方案+新兴探索"组合保障开发者体验[21] - V3.2通过引入稀疏注意力机制实现算力利用效率优化,官方同步宣布API服务价格下调50%,延续"高性能+低成本"开发理念[22] - 在各项评估指标上V3.2-Exp表现大多与前版相当,Codeforces测试分数提高75分,BrowseComp-zh提升2.9分,但HMMT测试下降2.5分[29] - DeepSeek为V3.2-Exp提供多种内核实现:TileLang内核适合研究用途,DeepGEMM针对生产环境优化,FlashMLA专注于稀疏注意力性能[31][32] - V3.2-Exp代表一种中间实验步骤,目前尚未准备好用于所有部署,但在结构化长文件推理如代码任务上显示出有前景的方向[34]
反直觉: MoE混合专家模型和场景没什么关系
理想TOP2· 2025-08-29 00:01
混合专家模型(MoE)的核心机制 - MoE本质是稀疏注意力手段 旨在提高计算效率 实现小算力运行大模型的目标[1] - 通过提前选取对数据结果起决定作用的少量参数进行计算 近似实现全部参数计算效果 对最终输出影响极小[2] - 专家分配并非基于场景划分 而是数据驱动下的参数优化过程[1] 传统场景划分方式的局限性 - 固定场景对应专家模型会导致场景限制问题 遇到未见场景时无法处理[1] - 若按场景划分多个小模型分别训练 不符合MoE结构的本质设计[1] - 专人专用方式会造成参数利用率低下 部分专家可能永远无法被激活[2] 专家激活与分配机制 - 工作应均匀分配给每个专家 避免低触发率专家造成的参量浪费[2] - 每次可激活不同数量专家 实现算力动态分配[2] - 更难的问题可分配更多算力 同时提升效率和最终效果[2] 实际应用中的表现特征 - 不同专家可能自然形成特定场景偏好 但这是训练结果而非设计原因[3] - 高速场景可能频繁使用某子模型 超车场景可能使用另一子模型 这是数据驱动的自然分布[3] - 专家特长分化是模型训练的"果"而非主观设计的"因"[3]