残差连接(Residual Connection)
搜索文档
融资 1200亿后 Kimi 再扔王牌,新架构爆改 Transformer 老配件,比 DeepSeek 同款还省钱
AI前线· 2026-03-17 15:53
文章核心观点 - 文章聚焦于Kimi公司发布的一篇重磅新论文,该论文对Transformer架构中基础但长期未变的“残差连接”组件进行了根本性创新,提出了“注意力残差”方法[5] - 该方法通过引入注意力机制作为“智能筛选器”,解决了传统残差连接固有的信息稀释、无法选择性听取和早期信息丢失等问题,从而显著提升了模型在复杂推理任务上的性能[6][13][18] - 与另一家公司DeepSeek提出的改进方案相比,Kimi的“注意力残差”在保持高性能的同时,具备即插即用、成本效益高等工程化优势,可能代表了大模型在数据红利见顶后,通过优化“信息管理”来提升效能的新方向[37][38][39] 技术原理与问题分析 - **传统残差连接的作用与问题**:残差连接为深度学习网络提供了信息流动的“主干道”,使深层网络易于训练[12]。但其存在三个致命问题:1) “不能挑着听”:所有层只能接收前面所有层输出的混合结果,无法选择性关注[13];2) “丢了的内容找不回来”:早期关键信息容易被后续信息覆盖而永久丢失[18];3) “内容越堆越多”:越往后层需要输出越强的信号才能被感知,导致训练困难[18] - **Kimi的解决方案**:受注意力机制解决序列建模中长距离依赖问题的启发,Kimi认为“序列维度上的时间问题和深度维度上的层问题是同一件事”,从而提出“注意力残差”[14]。其核心是让每一层都能直接访问前面所有层的原始输出,并通过一个动态的、内容依赖的重要性分数(α)进行加权融合,实现“想找谁的就找谁的”[15][16][33] - **工程优化版本**:为平衡性能与成本,Kimi提出了“分块注意力残差”,将网络层分组,组内使用标准残差,组间使用注意力残差,大幅节省成本[19]。并通过“跨阶段缓存”和“两阶段计算策略”进一步优化训练和推理效率[23] 性能表现与实验结果 - **综合性能提升**:在多种基准测试中,注意力残差模型相比基线模型实现了全场景稳定提升,在研究生级专业考试、高等数学推理、代码生成等高难度任务上,性能直接提升3-7.5个百分点[7]。例如,在GPQA-Diamond任务上从36.9%提升至44.4%,在Math任务上从53.5%提升至57.1%,在HumanEval代码生成任务上从59.1%提升至62.2%[8] - **效率与成本优势**:在Kimi自家架构上验证,该方案可节约1.25倍算力,训练端到端额外开销不到4%,推理延迟增加不到2%[8]。分块注意力残差“花同样的钱,能达到传统残差连接1.25倍算力才能达到的效果”[24] - **缩放定律与消融实验**:该技术完全适配大模型缩放定律,模型规模越大,优势越明显[10]。消融实验证明,方案中“随内容变的打分”、使用softmax函数、将层分为8个左右的小组等设计均必不可少[27][31] 与DeepSeek方案的对比分析 - **问题诊断与解决路径不同**:DeepSeek认为问题是“信息主干道太挤”,因此推出多头混合连接,通过拓宽多条并行专线并在专线间混合信息来解决问题[32]。Kimi则认为问题是“信息主干道不能挑重点”,因此赋予网络筛选权[33] - **能力边界差异**:DeepSeek的mHC方案只能处理“混合后的二手内容”,而Kimi的AttnRes能直接访问“所有前面的原版原话”[33]。因此,mHC在基础语言理解和闲聊场景有稳定提升,但在需要多步推理、长上下文记忆的复杂任务上提升有限[35];AttnRes则能兼顾训练稳定性与复杂推理,在长上下文、逻辑题等任务上提升显著[36] - **工程落地成本差异**:DeepSeek的mHC需要对现有架构进行“伤筋动骨的大改造”,无法直接替换传统残差连接,适配成本极高[37]。Kimi的AttnRes是“即插即用的替换件”,只需替换原有模块,其他结构和参数无需改动,适配成本极低[37] - **性价比对比**:根据对比,Kimi完整版的Full AttnRes性能始终优于mHC,而Block AttnRes性能与之相当,但所需读写数据量只有DeepSeek mHC的1/6[38]。这表明在大规模工程部署中,Kimi的路线可能更具现实吸引力[39] 行业影响与评价 - 该研究获得了包括OpenAI的Andrej Karpathy在内的行业顶尖人物的关注与点赞,引发了关于Transformer中其他“长期沿用的配置”是否也可被改进的思考[28] - 有网友将Kimi称为“新的DeepSeek”[30] - 文章指出,当数据红利逐渐到顶,过去大模型比拼“堆算力”的模式可能正在转向下一代通过优化“管信息”来拉开差距的竞争[39]