残差连接（Residual Connection） - 财报，业绩电话会，研报，新闻

残差连接（Residual Connection）

搜索文档

融资 1200亿后 Kimi 再扔王牌，新架构爆改 Transformer 老配件，比 DeepSeek 同款还省钱

AI前线· 2026-03-17 15:53

文章核心观点 - 文章聚焦于Kimi公司发布的一篇重磅新论文，该论文对Transformer架构中基础但长期未变的“残差连接”组件进行了根本性创新，提出了“注意力残差”方法[5] - 该方法通过引入注意力机制作为“智能筛选器”，解决了传统残差连接固有的信息稀释、无法选择性听取和早期信息丢失等问题，从而显著提升了模型在复杂推理任务上的性能[6][13][18] - 与另一家公司DeepSeek提出的改进方案相比，Kimi的“注意力残差”在保持高性能的同时，具备即插即用、成本效益高等工程化优势，可能代表了大模型在数据红利见顶后，通过优化“信息管理”来提升效能的新方向[37][38][39] 技术原理与问题分析 - **传统残差连接的作用与问题**：残差连接为深度学习网络提供了信息流动的“主干道”，使深层网络易于训练[12]。但其存在三个致命问题：1) “不能挑着听”：所有层只能接收前面所有层输出的混合结果，无法选择性关注[13]；2) “丢了的内容找不回来”：早期关键信息容易被后续信息覆盖而永久丢失[18]；3) “内容越堆越多”：越往后层需要输出越强的信号才能被感知，导致训练困难[18] - **Kimi的解决方案**：受注意力机制解决序列建模中长距离依赖问题的启发，Kimi认为“序列维度上的时间问题和深度维度上的层问题是同一件事”，从而提出“注意力残差”[14]。其核心是让每一层都能直接访问前面所有层的原始输出，并通过一个动态的、内容依赖的重要性分数（α）进行加权融合，实现“想找谁的就找谁的”[15][16][33] - **工程优化版本**：为平衡性能与成本，Kimi提出了“分块注意力残差”，将网络层分组，组内使用标准残差，组间使用注意力残差，大幅节省成本[19]。并通过“跨阶段缓存”和“两阶段计算策略”进一步优化训练和推理效率[23] 性能表现与实验结果 - **综合性能提升**：在多种基准测试中，注意力残差模型相比基线模型实现了全场景稳定提升，在研究生级专业考试、高等数学推理、代码生成等高难度任务上，性能直接提升3-7.5个百分点[7]。例如，在GPQA-Diamond任务上从36.9%提升至44.4%，在Math任务上从53.5%提升至57.1%，在HumanEval代码生成任务上从59.1%提升至62.2%[8] - **效率与成本优势**：在Kimi自家架构上验证，该方案可节约1.25倍算力，训练端到端额外开销不到4%，推理延迟增加不到2%[8]。分块注意力残差“花同样的钱，能达到传统残差连接1.25倍算力才能达到的效果”[24] - **缩放定律与消融实验**：该技术完全适配大模型缩放定律，模型规模越大，优势越明显[10]。消融实验证明，方案中“随内容变的打分”、使用softmax函数、将层分为8个左右的小组等设计均必不可少[27][31] 与DeepSeek方案的对比分析 - **问题诊断与解决路径不同**：DeepSeek认为问题是“信息主干道太挤”，因此推出多头混合连接，通过拓宽多条并行专线并在专线间混合信息来解决问题[32]。Kimi则认为问题是“信息主干道不能挑重点”，因此赋予网络筛选权[33] - **能力边界差异**：DeepSeek的mHC方案只能处理“混合后的二手内容”，而Kimi的AttnRes能直接访问“所有前面的原版原话”[33]。因此，mHC在基础语言理解和闲聊场景有稳定提升，但在需要多步推理、长上下文记忆的复杂任务上提升有限[35]；AttnRes则能兼顾训练稳定性与复杂推理，在长上下文、逻辑题等任务上提升显著[36] - **工程落地成本差异**：DeepSeek的mHC需要对现有架构进行“伤筋动骨的大改造”，无法直接替换传统残差连接，适配成本极高[37]。Kimi的AttnRes是“即插即用的替换件”，只需替换原有模块，其他结构和参数无需改动，适配成本极低[37] - **性价比对比**：根据对比，Kimi完整版的Full AttnRes性能始终优于mHC，而Block AttnRes性能与之相当，但所需读写数据量只有DeepSeek mHC的1/6[38]。这表明在大规模工程部署中，Kimi的路线可能更具现实吸引力[39] 行业影响与评价 - 该研究获得了包括OpenAI的Andrej Karpathy在内的行业顶尖人物的关注与点赞，引发了关于Transformer中其他“长期沿用的配置”是否也可被改进的思考[28] - 有网友将Kimi称为“新的DeepSeek”[30] - 文章指出，当数据红利逐渐到顶，过去大模型比拼“堆算力”的模式可能正在转向下一代通过优化“管信息”来拉开差距的竞争[39]

残差连接（Residual Connection）

注意力机制

大模型

注意力残差（Attention Residuals）

分块注意力残差（Block AttnRes）

mHC

残差连接（Residual Connection）

注意力机制

大模型

注意力残差（Attention Residuals）

分块注意力残差（Block AttnRes）

mHC