Workflow
自注意力机制
icon
搜索文档
时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
机器之心· 2025-06-11 08:24
Transformer架构的核心地位 - Transformer的自注意力机制在推理时能灵活建模长距离上下文,使其成为大语言模型不可替代的核心组件,尽管存在计算复杂度为二次方的问题 [1] - 线性复杂度的替代方案(如RNN、Linear Attention、SSM等)难以真正取代Transformer的地位,尤其在decoder-only架构广泛采用后,自注意力机制的重要性进一步凸显 [1] - 自注意力机制带来的KV缓存问题成为推理效率的关键瓶颈,其显存和带宽开销随模型参数维度扩大而显著上升,限制了推理长度与batch size [1] KV缓存的优化挑战与现有方案 - 当前主流大模型采用Grouped-Query Attention(GQA)机制,通过减少Key/Value头数量来减小KV缓存规模,在效率与效果间取得平衡 [5] - Multi-Query Attention(MQA)是GQA的极端形式,显存占用大幅减少但性能显著下降,而GQA成为大语言模型中最常见的注意力变体 [5] - DeepSeek团队提出的Multi-head Latent Attention(MLA)通过在隐空间压缩KV特征维度提升推理效率,但隐空间压缩幅度受限,KV缓存存储开销仍是瓶颈 [7] MTLA的创新与核心技术 - MTLA首次将时序压缩与隐空间压缩结合,在KV缓存的两个维度同时施加时空压缩策略,显著降低显存与计算成本 [2] - MTLA通过超网络动态融合相邻时间步信息,并设计步幅感知因果掩码确保训练与推理一致性,保持甚至略优于传统注意力机制的性能 [2][14] - 时间压缩率s=2时,MTLA对KV缓存的压缩程度与MQA相当但性能更优,且具备进一步压缩空间 [12][21] MTLA的训练与灵活性 - MTLA引入步幅感知因果掩码解决训练与推理行为不一致问题,保留所有中间状态KV表达,通过矩阵乘法实现高效并行计算 [14][16] - 解耦的旋转位置编码(decoupled RoPE)进一步提升了效率,MTLA在注意力机制与线性模型之间架起桥梁,提供效率与性能的灵活权衡 [17][18] - 当时间压缩率s足够大时,MTLA几乎只保留一个KV缓存,退化为线性序列建模方法 [17] MTLA的性能表现与应用潜力 - MTLA在语音翻译、文本摘要生成等任务中保持与标准MHA相当的质量,同时实现超过5倍推理速度提升和8倍显存占用降低 [20] - MTLA具备大规模部署潜力,尤其适合参数规模扩大和生成序列增长的大语言模型场景,有望成为自注意力模块的重要替代方案 [23] - MTLA实现代码已开源,但工程落地需社区持续推动,改动复杂度高于GQA和MQA [24][25]
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 19:07
在这个 AI技术日新月异的时代,我们眼看着它不仅在改变生活,更在 改变着 商业规则。 AI可不只是那些冰冷的算法,它现在能像人一样思考、推理,甚至在某些方面 的表现超越了普通人 。这告诉我们,传统的技术和创新模式已经不够用了, 企业要想增长、要保持竞争力,就 需要 换个思路。 AI正在重新定义我们理解和实践商业创新的方式。 最近 , 混沌君旁听了 混沌学园的创始人李善友教授 的重磅 全新课程《认知型创新:从 OpenAI到DeepSeek》 。 这门课从企业创新的角度, 讲述了 全球两大顶尖 AI公司——OpenAI和DeepSeek是如何一步步走到今天的,他们究竟走过了怎样的创新之路。这对于我 们理解AI时代的技术创新和企业创新,提供了清晰且极具价值的路径。 教授 深挖 了 OpenAI最初的愿景和它如何对抗巨头的思路,解密大语言模型是如何诞生的 , 尤其是 AI能力如何从简单积累到惊人"涌现" 。 还 解读 了 DeepSeek如何在资源有限的情况下,走出一条"低成本高性能"的独特道路;更探讨 了 AI时代下,企业应该怎样构建一个能不断"涌现"创新的组织模式, 走向"技术领先"。 扫描下图二维码购买月卡 ...
CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源
机器之心· 2025-06-01 11:30
本文作者主要来自 Meta 和多所美国高校。第一作者是佐治亚理工机器学习专业的博士生赖柏霖(目前也是 UIUC 的访问学生),导师为 James Rehg 教授(已转 入 UIUC),主要研究方向是多模态学习、生成模型和视频理解,并在 CVPR、ECCV、ACL 等会议发表相关论文。本文工作是赖柏霖在 Meta 的 GenAI 部门实 习时完成。 例如:我们需要模型将一辆普通的汽车变换为兰博基尼,如果训练集中没有包含类似的数据,模型很难仅通过「兰博基尼」四个字推断出其对应的形状、纹理等 视觉特征,同时兰博基尼的特征也很难通过语言来详尽地描述。如今网络的快速普及导致大量新的概念不断涌现,这些没有被包含在训练数据中的新概念对于目 前图像编辑模型的泛化能力是个很大的挑战。 为了解决这一难题,一个直接有效的方法是在文字指令的基础上额外提供一组或多组变换前后的图片作为样例,让模型从中学习用户想要的图像变换,即 few-shot 图像编辑。目前已有的模型都是基于扩散模型开发,然而从图片样例中学习潜在的图像变换需要模型有很强的推理能力,扩散模型生成能力很强但推理能力依然 较弱。 相反地,自回归模型(autoregressi ...
英伟达,我命由天不由我
虎嗅APP· 2025-03-07 18:35
以下文章来源于衣公子的剑 ,作者衣公子 衣公子的剑 . 以文会友,做爱读的商业科普。前在国际知名咨询公司,后在国内头部金融机构,现在做战略咨询&精 品投行。 本文来自微信公众号: 衣公子的剑 ,作者:衣公子,题图来自:视觉中国 一、悔创英伟达 身处硅谷的英伟达,一直奉行不输中国同行的996。黄仁勋很少解雇员工 (和马斯克比) ,但是对员工的 言语辱骂、公开羞辱,是出名的恶毒。在英伟达,项目失败,就有"公开处决"。上百高管靠墙站,负责人站 出来,解释每个出错的环节,接受黄仁勋严厉刻薄的分析。一连几小时,所有人不许走。气氛浓烈,黄仁 勋放声怒吼,"你工资领了多少?"、"全部退回来!" 员工评价,和黄仁勋相处,就像"把手放进插座"。 对内如此,对外就更狠了。 英伟达擅长挖角,大量投奔而来的工程师,"带来"创意。S3、硅图、3dfx、Matrox纷纷提起诉讼,指控英伟 达诱导员工违反保密协议,侵犯专利。后来,三家接受和解,而英伟达最大的竞争对手3dfx拒绝和解,要诉 讼到底。关键时刻,3dfx的财报亏损,电话会透露本季亏损1亿美元。 仅仅一个小时后,英伟达宣布对3dfx反诉,指控3dfx侵犯多项英伟达专利。 英伟达这 ...