大模型架构创新 - 财报，业绩电话会，研报，新闻

大模型架构创新

搜索文档

36氪· 2025-09-12 10:45

模型发布与核心参数 - 阿里通义实验室发布下一代基础模型架构Qwen3-Next及基于该架构的Qwen3-Next-80B-A3B-Base模型，模型总参数量达800亿，但仅激活30亿参数 [1] - Base模型使用15T tokens训练数据，仅需Qwen3-32B 9.3%的GPU计算资源，在超过32k上下文长度时推理吞吐量可达Qwen3-32B的10倍以上 [1][8] - 基于Base模型开源指令模型（Instruct）和思维模型（Thinking），支持原生262144 token上下文长度，并可扩展至1010000 token [1] 性能表现对比 - 指令模型性能与参数规模更大的Qwen3-235B-A22B-Instruct-2507相当，思维模型优于谷歌闭源模型Gemini-2.5-Flash-Thinking [2][6] - 在MMLU基准测试中，Qwen3-Next-80B-A3B-Base得分为84.72，接近Qwen3-235B-A22B-Base的87.81 [7] - 在数学推理基准MATH测试中，Qwen3-Next-80B-A3B-Base得分为62.36，优于Qwen3-32B-Base的61.62 [7] - 在RULER长文本评测中，Qwen3-Next-80B-A3B-Instruct在256k范围内表现超过Qwen3-235B-A22B-Instruct-2507 [13][14] 架构创新与技术特点 - 新增混合注意力机制（Gated DeltaNet与Gated Attention组合）、高稀疏度MoE结构、训练稳定性优化及多Token预测（MTP）机制 [5][16][18] - MoE专家激活比从Qwen3系列的1:16提升至1:50，实现极低激活比率 [18] - 采用3:1的混合注意力比例（75% Gated DeltaNet + 25%标准注意力），在超长上下文建模中实现性能与效率双重优化 [18] - 多Token预测机制提升推理效率，投机采样接受率得到进一步提高 [19] 效率与成本优势 - 总训练成本不到Qwen3-32B-Base的10%，GPU计算资源消耗仅为Qwen3-32B的9.3% [1][6] - 在4k tokens上下文长度下，预填充阶段吞吐量达Qwen3-32B的7倍，解码阶段吞吐量提升近4倍 [8][10] - 在超过32k上下文长度时，预填充和解码阶段吞吐量均保持10倍以上优势 [8][10] 模型生态与开源 - 新模型已在魔搭社区、Hugging Face、Qwen Chat、阿里云百炼及NVIDIA API Catalog等多个平台开放体验 [5] - 开发者社区对多Token预测机制反馈积极，认为这是架构中最令人印象深刻的部分 [5] - 阿里通义实验室持续优化架构并开发Qwen3.5，同时推出多领域模型如Qwen3-Max-Preview、Qwen-Image-edit、Qwen3-ASR-Flash等 [21]

搜狐财经· 2025-06-06 19:38

大模型架构创新研究核心观点 - Transformer架构目前仍占据行业绝对主导地位，但面临二次计算复杂度高、长序列处理效率低、端侧部署受限等局限性 [1][9][16] - 行业正从两条路径突破：Transformer架构改进（Attention机制、FFN层优化）和非Transformer架构探索（新型RNN/CNN） [1][7][18] - 技术发展呈现混合架构趋势，如Mamba+MoE等组合，兼顾性能与效率 [2][9][18] - 2023年后进入架构创新密集期，学术界聚焦理论突破，工业界加速工程验证 [2][14] Transformer架构现状与挑战 - 当前占据大模型架构90%以上市场份额，通用性和可扩展性优势明显 [9][10] - 核心问题：计算复杂度O(n²)导致算力消耗激增，GPT-4推理成本达GPT-3的7倍 [16] - 长序列处理效率低下，KV缓存内存占用限制端侧部署 [16] - 预训练+微调范式见顶，效果提升边际递减（Grok3资源增10倍效果仅提升2%） [16] Transformer架构改进路径 Attention机制优化 - 稀疏注意力：采用局部窗口/块状计算降低复杂度至O(n log n)，代表技术有Sliding Window、MoBA [24][25][26] - 动态注意力：NSA等新技术实现可学习动态路径，替代预定义结构 [27][28][32] - 线性注意力：将点积计算线性化降为O(n)复杂度 [24] FFN层改进 - 从Dense结构演进为MoE混合专家系统，提升稀疏连接效率 [1][21] - 持续探索动态化、稀疏化下一代技术 [21][23] 其他改进 - 位置编码优化：LongRoPE增强长序列建模 [1] - 归一化层与残差连接改进 [22] 非Transformer架构探索 - 新型RNN：RWKV通过广义Delta Rule优化状态演化，Mamba利用状态空间模型提升训练效率 [1][14] - 新型CNN：Hyena Hierarchy等架构尝试 [1] - 混合架构：2025年MiniMax-01实现456B参数工业级落地，采用Transformer+Mamba组合 [9][14] 行业发展趋势 - 混合架构成为主流选择，字节跳动、阿里等企业加速布局 [2][10] - 研究方向聚焦：算力适配（FP8混合精度）、多模态融合、端侧部署能力 [2][18] - 参数规模持续突破，2025年出现万亿级非Transformer架构 [9][14] - 训练范式革新：从预训练转向多阶段训练、RL优化等后训练技术 [16][18]