Linear Attention

搜索文档

自动驾驶之心· 2025-11-06 08:04

模型架构创新 - 模型采用混合专家架构将MoE稀疏度从8提升至32 显著增强模型容量[4] - 核心设计原则为线性注意力具体实现为KDA方法在GDN基础上融入GLA的细粒度门控[4] - 采用混合模型方案 KDA与MLA的层混合比例为3:1 该比例经消融实验证实为效率与性能最优解[5] - 循环公式中关键部分为Decay机制通过数学表达式实现状态更新[4] 性能表现 - 在5.7T训练token和3B激活参数条件下模型效果实现巨大提升多项基准测试呈现显著优势[7] - 解码方面因KDA的KV缓存占用小批量大小补偿后加速比达到6倍[8] - 在数学/代码类基准测试上受参数规模限制但模型个性表现突出具有小K2模型特质[8] - 实际使用体验与榜单成绩达成平衡避免为追求分数牺牲用户体验[13] 训练过程 - 模型规模达48B MoE 训练量5.7T 采用分阶段扩展策略从1B参数开始逐步验证性能[10][11] - 训练过程中发现关键参数需保持fp32精度中途切换精度可能影响训练效果[12] - 后训练方案经过数十种数据配方尝试最终形成成熟方案[13] - 采用严格的内科监控机制任何明显性能差异都会触发回退至上一阶段[11] 技术路线定位 - 本次技术报告定位为技术验证主要战场放在1T公平比较实验为下一代K3模型铺垫[14] - 线性注意力技术路线逐渐收敛至Delta变体同时稀疏注意力路线如NSA也受到关注[18] - 模型开源旨在推动混合模型实际落地为行业提供新的技术启发[19] - 当前时间窗口适合线性注意力发展因智能体应用需要32k+长上下文支持[17]

Linear Attention

哈工大孟维康：让注意力有 “棱角”｜Attention

36氪· 2025-10-20 15:58

Transformer架构的行业现状与挑战 - Transformer作为生成式AI的核心架构，几乎定义了整个行业的技术走向，其核心模块Self-Attention在视觉与语言模型领域几乎成为标配[1] - Self-Attention机制面临空间平方复杂度的挑战，这意味着昂贵的投入和巨大的能耗，导致模型训练陷入资源军备竞赛，令中小团队和企业望而却步[1] - 学界与产业界持续探索平衡效率与性能的方法，Linear Attention是代表性尝试，旨在通过核函数降低计算复杂度[1] Linear Attention的技术瓶颈 - Linear Attention通过核函数替代Softmax以降低复杂度，但存在两大硬伤：注意力分布变“平”（高熵）导致模型区分能力削弱，以及在精细细节或重要特征中丧失尖锐性[1] - 使用非负核函数近似Softmax时，所有负数信息被“截掉”，导致模型只能看到“正相关”而看不到“负相关”或“抑制关系”，使注意力图变得片面并影响表达力[2] PolaFormer的创新解决方案 - 针对高熵问题，研究提出通过设计一种新的核函数来降低权重分布的信息熵，要求映射函数一阶和二阶导数均大于0，从而重新缩放权重矩阵响应以降低熵[3] - 对于负值丢失问题，工作提出通过极性感知的计算方式，实现注意力权重矩阵所有元素平等地进行相似度计算，以不降低模型表现能力[3] - PolaFormer采用双支线极性建模与可学习幂函数的混合策略，将Query和Key向量拆成正负部分，并设计并行支线分别处理同号交互和异号交互[4] - 在Value向量侧也进行拆分并送入两条支路，引入两个可学习矩阵对支线结果进行加权调节并拼接，同时叠加可学习通道级幂函数使注意力分布更尖锐[6] PolaFormer的实验验证与应用前景 - 在目标检测、语义分割、图像分类和长序列基准等多种任务上的实验表明，Polarity-Aware Linear Attention可有效替代Vision Transformer中的Self-Attention模块，并显示出明显性能提升[7] - 研究背景源于产业界更在意模型部署效率，如在移动端或纯客户端上运行，而像LLaMA、qwen系列数十B规模的模型在资源受限情境下仍难落地[8] - 选择优化Linear Attention而非Sparse Attention的原因在于，后者在模型规模增大时性能不能很好维持，存在随机丢失信息的风险，而Linear Attention通过矩阵分解保证复杂度下降的同时不丢失全局信息[8][9] - 未来突破核心在于如何在保持表达力的同时将Attention做得更“轻量化”，尤其是在终端部署、算力受限场景和大模型训练中[29] - 算法与硬件协同设计是未来方向，长序列模型部署面临单卡GPU显存限制、通信开销等问题，需要共同解决部署瓶颈[30] - PolaFormer在长序列和高分辨率场景应用潜力大，如视频处理、大语言模型和高分辨率生成模型，在LLaMA长上下文设定上已显示出明显效率提升[31]

小米小爱同学：资源受限下，实现端侧大模型的高性能推理

AI前线· 2025-06-25 12:15

端侧大模型工程化挑战与解决方案 - 端侧部署面临模型体积、推理时延、功耗和更新机制等极高要求，需融合系统优化、模型压缩和软硬件协同[1] - 小米团队通过自研推理框架实现180 tokens/s实时推理性能，采用LoRA插件化+共享基座模型支持多业务复用[1] - 未来突破将依赖面向大模型优化的硬件能力提升和模型架构演进如Linear Attention[1] 商业化部署核心技术门槛 - 端侧设备资源限制导致可部署模型参数量难以超过4B，低比特量化造成效果损失[3] - 大模型快速迭代与端侧更新机制滞后形成矛盾，云端更新更灵活[3] - 当前处于技术积累阶段，需等待计算能力提升或模型稳定后进入部署阶段[3] 自研推理框架优化策略 - 动态输入支持通过自动切分输入尺寸提升资源利用率，避免传统padding方式浪费[6] - 投机推理在端侧实现7-10倍decoding加速，推理速度从20+tokens/s提升至200 tokens/s[6] - 量化与指令级优化通过Neon指令集加速CPU操作[7] 业务需求对架构设计的约束 - 语音助手业务链路由感知、理解和满足三阶段串行执行，并发需求较弱[7] - 端侧NPU硬件设计以串行执行为主，multi-batch收益有限[8] - 通过调度和切换机制保障各业务链路在预期时间内完成推理[8] 共享基座架构设计 - 12GB内存手机部署4B模型需近3GB内存，采用共享基座+LoRA插件化实现多业务复用[9] - 运行时动态切换不同业务LoRA模块，实现参数共享+差异定制[10] - 该架构在内存利用率和扩展能力上具有优势[10] 跨芯片平台部署策略 - 框架设计采用模块化、后端解耦思路，抽象通用接口适应不同硬件平台[11] - 大模型优化技术更多针对模型结构特性，与底层硬件绑定程度较浅[11] 性能优化组合策略 - 低比特量化、并行解码、带宽控制等技术可同时组合使用[12] - 优先选择技术价值大、适用面广、无冲突的优化方式[12] - 模块化分层设计使上层调用无需关心底层适配逻辑[12] 未来技术突破方向 - 硬件进步是关键突破点，新一代面向大模型的端侧芯片将大幅增强能力[14][15] - Linear Attention架构可解决Transformer内存随context增长的问题[16] - 多模态任务输入长度增长使传统Transformer面临资源瓶颈[16][17]