Workflow
大模型架构创新
icon
搜索文档
DeepSeek连发两篇论文背后,原来藏着一场学术接力
36氪· 2026-01-16 09:28
文章核心观点 - 大模型架构创新呈现接力演进模式,DeepSeek近期发布的两篇重要论文(mHC与Conditional Memory)均建立在字节Seed团队前期研究工作的基础上,并进行了关键性改进与规模化工程实现,指明了架构创新的未来方向[1][8] - 公开研究成果与社区协作对技术进步至关重要,DeepSeek与字节Seed的研究接力展示了持续积累与相互启发的价值,在头部厂商日益封闭的背景下尤为可贵[19][20] 残差连接架构的演进 - **ResNet奠定基础**:2015年何恺明等人提出的残差连接解决了深度神经网络训练中的信息失真问题,成为近十年几乎所有主流深度网络架构的默认配置[3] - **字节Seed提出HC范式**:2024年9月,字节Seed团队提出Hyper-Connections,核心创新在于通过扩展残差流宽度和引入可学习的Dynamic Hyper Connections,在不改变单个计算单元FLOPs开销的前提下,显著提升了网络拓扑复杂度,打破了恒等映射残差连接传统[3][4] - **HC的三大核心思路**:为后续研究提供了宽度扩展(Stream Expansion)、多尺度连接的权重化、动态拓扑潜力三个核心思路,但自身在大规模训练中遇到稳定性瓶颈和受限的可扩展性[6] - **DeepSeek推出mHC实现突破**:mHC在继承HC架构优势的同时,通过引入Sinkhorn-Knopp算法施加流形约束,将HC的广义空间投影回特定流形,恢复了残差网络至关重要的恒等映射特性,解决了HC在超大规模训练时的不稳定性[7] - **mHC的工程价值**:提出了更高效的内核优化,使该范式从理论实验走向了万亿级参数规模的工业级应用,在27B模型等大规模训练中表现出卓越的可扩展性[7] 条件存储与知识检索的创新 - **解决核心问题**:Conditional Memory旨在解决标准Transformer缺乏原生知识查找原语的问题,为模型配备一个名为Engram的“小抄本”,通过N-gram哈希查表直接获取常见词组知识,节省算力用于更复杂推理[9] - **字节Seed的先行探索**:在OverEncoding方法中,字节Seed团队发现为模型配备巨大的N-gram词典能带来几乎“白捡”的性能提升,因为海量的嵌入参数稀疏激活,既不显著占用显存也不过多耗费算力,且词典越大性能越好[10] - **DeepSeek的理论升华与工程化**:DeepSeek将N-gram查表机制升华为“条件存储”这一与条件计算(MoE)并列的scaling law新轴线,并提出了“稀疏分配”问题,实验发现将约20%-25%的参数分配给Engram效果优于全押MoE[12][13] - **系统性技术改良**:在架构上将Engram模块注入到模型中间层;在交互机制上引入“上下文感知门控”;在系统优化上通过分词器压缩和提高存储效率,并利用硬件预取技术解决延迟问题,具备了大规模工业落地能力[13] - **性能对比**:在相同参数预算下,DeepSeek的Engram比字节Seed的OverEncoding方法具有更高的缩放效率[14] 其他值得关注的底层技术探索 - **字节Seed的UltraMem架构**:通过分布式多层级联内存结构、Tucker分解检索与隐式参数扩展优化,有效解决了传统MoE架构在推理阶段的高额访存问题,并验证了其优越的Scaling Law扩展特性[19] - **更多前沿范式尝试**:包括系统验证离散扩散技术路线的Seed Diffusion Preview;舍弃文本编码器、直接用原始文本分词作为多分类标签并在视觉任务上效果优于CLIP的SuperClass;以及引入傅里叶原理思想以弥补Transformer在周期性建模方面缺陷的新型神经网络架构FAN[20]
DeepSeek连发两篇论文背后,原来藏着一场学术接力
机器之心· 2026-01-16 08:42
文章核心观点 - 文章通过分析DeepSeek近期发布的两篇论文,揭示了大模型架构创新的演进路径,并指出DeepSeek与字节Seed团队的研究工作存在显著的“接力”关系,共同推动了技术进步 [2][3] - 这种公开研究成果的接力模式,在头部大模型厂商中已愈发少见,其价值在于促进整个社区的积累与相互启发,共同“上分” [28][32] 残差连接的演进:从ResNet到mHC - **ResNet奠定基础**:2015年何恺明等人提出的残差连接解决了深度神经网络训练中的信息失真问题,成为近十年几乎所有主流深度网络架构的默认配置 [6] - **字节Seed的HC突破**:2024年9月,字节Seed团队提出HC,通过引入宽度动态性和跨层特征聚合,打破了恒等映射残差连接传统,构建了更高维、更灵活的特征流动空间新范式 [8] - **DeepSeek的mHC改进与规模化**:DeepSeek在HC基础上提出mHC,通过引入Sinkhorn-Knopp等技术施加流形约束,恢复了训练稳定性,并进行了内核优化,使该范式能应用于万亿级参数规模的工业级训练,解决了HC在大规模训练中的工程瓶颈 [11][12] - **技术演进脉络清晰**:从2015年ResNet到2024年HC,再到2026年mHC,残差连接的演进是不同机构和研究者持续接力优化的结果 [15] 知识检索的革新:从N-gram到条件存储 - **问题定义**:标准Transformer缺乏原生知识查找能力,即使回答简单事实性问题也需要计算,造成算力浪费 [18] - **字节Seed的OverEncoding探索**:字节Seed团队发现,为模型配备巨大的N-gram词典能带来近乎“白捡”的性能提升,因为海量嵌入参数稀疏激活,对显存和算力消耗很小,且词典越大性能越好 [19] - **DeepSeek的Conditional Memory升华**:DeepSeek将N-gram查表机制升华为“条件存储”这一新的扩展轴线,并与混合专家模型并列,提出了在MoE专家与静态存储模块之间分配参数的“稀疏分配”问题 [21] - **工程实现与效率优势**:DeepSeek在架构上将Engram模块注入模型中间层,引入上下文感知门控,并进行了分词器压缩和硬件预取等系统优化,使其具备大规模工业落地能力,且在相同参数预算下,其缩放效率明显高于字节Seed的OverEncoding方法 [22][23] - **最优参数分配**:实验揭示了一条U型缩放规律,将约20%-25%的参数分配给Engram存储模块效果优于全押MoE [22] 公开研究的价值与启发 - **研究接力具象化价值**:DeepSeek与字节Seed的公开研究接力,展示了头部厂商带动社区共同进步的模式 [28] - **字节Seed的其他前沿探索**:字节Seed团队在多个基础研究领域进行了大胆尝试,包括解决MoE推理高访存问题的UltraMem架构、验证离散扩散路线的Seed Diffusion Preview、优于CLIP的SuperClass方法,以及引入傅里叶思想的新型架构FAN [29][30] - **底层技术推动长期进步**:这些短期内无法直接商业化的底层技术探索,是科技行业持续进步的重要源泉 [31]
阿里深夜干了件大事,成本暴降90%
36氪· 2025-09-12 10:45
模型发布与核心参数 - 阿里通义实验室发布下一代基础模型架构Qwen3-Next及基于该架构的Qwen3-Next-80B-A3B-Base模型,模型总参数量达800亿,但仅激活30亿参数 [1] - Base模型使用15T tokens训练数据,仅需Qwen3-32B 9.3%的GPU计算资源,在超过32k上下文长度时推理吞吐量可达Qwen3-32B的10倍以上 [1][8] - 基于Base模型开源指令模型(Instruct)和思维模型(Thinking),支持原生262144 token上下文长度,并可扩展至1010000 token [1] 性能表现对比 - 指令模型性能与参数规模更大的Qwen3-235B-A22B-Instruct-2507相当,思维模型优于谷歌闭源模型Gemini-2.5-Flash-Thinking [2][6] - 在MMLU基准测试中,Qwen3-Next-80B-A3B-Base得分为84.72,接近Qwen3-235B-A22B-Base的87.81 [7] - 在数学推理基准MATH测试中,Qwen3-Next-80B-A3B-Base得分为62.36,优于Qwen3-32B-Base的61.62 [7] - 在RULER长文本评测中,Qwen3-Next-80B-A3B-Instruct在256k范围内表现超过Qwen3-235B-A22B-Instruct-2507 [13][14] 架构创新与技术特点 - 新增混合注意力机制(Gated DeltaNet与Gated Attention组合)、高稀疏度MoE结构、训练稳定性优化及多Token预测(MTP)机制 [5][16][18] - MoE专家激活比从Qwen3系列的1:16提升至1:50,实现极低激活比率 [18] - 采用3:1的混合注意力比例(75% Gated DeltaNet + 25%标准注意力),在超长上下文建模中实现性能与效率双重优化 [18] - 多Token预测机制提升推理效率,投机采样接受率得到进一步提高 [19] 效率与成本优势 - 总训练成本不到Qwen3-32B-Base的10%,GPU计算资源消耗仅为Qwen3-32B的9.3% [1][6] - 在4k tokens上下文长度下,预填充阶段吞吐量达Qwen3-32B的7倍,解码阶段吞吐量提升近4倍 [8][10] - 在超过32k上下文长度时,预填充和解码阶段吞吐量均保持10倍以上优势 [8][10] 模型生态与开源 - 新模型已在魔搭社区、Hugging Face、Qwen Chat、阿里云百炼及NVIDIA API Catalog等多个平台开放体验 [5] - 开发者社区对多Token预测机制反馈积极,认为这是架构中最令人印象深刻的部分 [5] - 阿里通义实验室持续优化架构并开发Qwen3.5,同时推出多领域模型如Qwen3-Max-Preview、Qwen-Image-edit、Qwen3-ASR-Flash等 [21]
大模型专题:大模型架构创新研究报告
搜狐财经· 2025-06-06 19:38
大模型架构创新研究核心观点 - Transformer架构目前仍占据行业绝对主导地位,但面临二次计算复杂度高、长序列处理效率低、端侧部署受限等局限性 [1][9][16] - 行业正从两条路径突破:Transformer架构改进(Attention机制、FFN层优化)和非Transformer架构探索(新型RNN/CNN) [1][7][18] - 技术发展呈现混合架构趋势,如Mamba+MoE等组合,兼顾性能与效率 [2][9][18] - 2023年后进入架构创新密集期,学术界聚焦理论突破,工业界加速工程验证 [2][14] Transformer架构现状与挑战 - 当前占据大模型架构90%以上市场份额,通用性和可扩展性优势明显 [9][10] - 核心问题:计算复杂度O(n²)导致算力消耗激增,GPT-4推理成本达GPT-3的7倍 [16] - 长序列处理效率低下,KV缓存内存占用限制端侧部署 [16] - 预训练+微调范式见顶,效果提升边际递减(Grok3资源增10倍效果仅提升2%) [16] Transformer架构改进路径 Attention机制优化 - 稀疏注意力:采用局部窗口/块状计算降低复杂度至O(n log n),代表技术有Sliding Window、MoBA [24][25][26] - 动态注意力:NSA等新技术实现可学习动态路径,替代预定义结构 [27][28][32] - 线性注意力:将点积计算线性化降为O(n)复杂度 [24] FFN层改进 - 从Dense结构演进为MoE混合专家系统,提升稀疏连接效率 [1][21] - 持续探索动态化、稀疏化下一代技术 [21][23] 其他改进 - 位置编码优化:LongRoPE增强长序列建模 [1] - 归一化层与残差连接改进 [22] 非Transformer架构探索 - 新型RNN:RWKV通过广义Delta Rule优化状态演化,Mamba利用状态空间模型提升训练效率 [1][14] - 新型CNN:Hyena Hierarchy等架构尝试 [1] - 混合架构:2025年MiniMax-01实现456B参数工业级落地,采用Transformer+Mamba组合 [9][14] 行业发展趋势 - 混合架构成为主流选择,字节跳动、阿里等企业加速布局 [2][10] - 研究方向聚焦:算力适配(FP8混合精度)、多模态融合、端侧部署能力 [2][18] - 参数规模持续突破,2025年出现万亿级非Transformer架构 [9][14] - 训练范式革新:从预训练转向多阶段训练、RL优化等后训练技术 [16][18]