Workflow
Differential Attention
icon
搜索文档
ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
机器之心· 2025-04-28 16:04
Transformer架构的局限性 - 传统Transformer架构在自然语言处理领域取得巨大成功,但在处理长文本、关键信息检索及对抗幻觉等任务时表现受限,主要因过度关注无关上下文[2] DIFF Transformer的创新架构 - DIFF Transformer由微软和清华团队提出,基于差分注意力机制,通过计算两组Softmax注意力图的差值放大关键上下文关注并消除噪声干扰[3][8] - 核心数学表达式为差分注意力公式,采用可学习标量参数调节两组注意力图权重[9][10] - 引入多头机制提升表达能力,每个头独立计算差分注意力并拼接输出,采用RMSNorm保持梯度一致性[15][16] DIFF Transformer的性能优势 - 语言建模效率显著提升:仅需65%参数规模或训练数据量即可达到与传统Transformer相当性能,如6.8B参数DIFF Transformer性能对标11B参数Transformer[4][21] - 长文本建模能力突出:在64K上下文长度下,累积平均负对数似然指标全面优于Transformer[23] - 关键信息检索准确率大幅提高:在64K上下文中,答案位于25%深度时准确率比Transformer高76%[25] - 数学推理能力领先:20B token微调后准确率差距达11%,第二阶段蒸馏后平均准确率再提升7.5%[35][37] 跨任务与跨模态潜力 - 在幻觉评测中表现优异:文本摘要任务准确率提升最高达0.19(XSum数据集),问答任务提升0.11(Qaspe数据集)[32] - 激活值异常减少:注意力激活值Top-1最大激活值比Transformer低8倍,更适配低比特量化[33] - 初步验证跨模态适用性:DiffCLIP研究已扩展至视觉与多模态领域,显示通用潜力[41] 行业影响与未来方向 - 获ICLR 2025 Oral论文收录(入选率1.8%),集成至Hugging Face transformers库引发广泛讨论[5][40] - 未来可探索低比特注意力算子设计、键值缓存剪枝及多模态应用[41]