Workflow
自注意力机制
icon
搜索文档
时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
机器之心· 2025-06-11 08:24
Transformer架构的核心地位 - Transformer的自注意力机制在推理时能灵活建模长距离上下文,使其成为大语言模型不可替代的核心组件,尽管存在计算复杂度为二次方的问题 [1] - 线性复杂度的替代方案(如RNN、Linear Attention、SSM等)难以真正取代Transformer的地位,尤其在decoder-only架构广泛采用后,自注意力机制的重要性进一步凸显 [1] - 自注意力机制带来的KV缓存问题成为推理效率的关键瓶颈,其显存和带宽开销随模型参数维度扩大而显著上升,限制了推理长度与batch size [1] KV缓存的优化挑战与现有方案 - 当前主流大模型采用Grouped-Query Attention(GQA)机制,通过减少Key/Value头数量来减小KV缓存规模,在效率与效果间取得平衡 [5] - Multi-Query Attention(MQA)是GQA的极端形式,显存占用大幅减少但性能显著下降,而GQA成为大语言模型中最常见的注意力变体 [5] - DeepSeek团队提出的Multi-head Latent Attention(MLA)通过在隐空间压缩KV特征维度提升推理效率,但隐空间压缩幅度受限,KV缓存存储开销仍是瓶颈 [7] MTLA的创新与核心技术 - MTLA首次将时序压缩与隐空间压缩结合,在KV缓存的两个维度同时施加时空压缩策略,显著降低显存与计算成本 [2] - MTLA通过超网络动态融合相邻时间步信息,并设计步幅感知因果掩码确保训练与推理一致性,保持甚至略优于传统注意力机制的性能 [2][14] - 时间压缩率s=2时,MTLA对KV缓存的压缩程度与MQA相当但性能更优,且具备进一步压缩空间 [12][21] MTLA的训练与灵活性 - MTLA引入步幅感知因果掩码解决训练与推理行为不一致问题,保留所有中间状态KV表达,通过矩阵乘法实现高效并行计算 [14][16] - 解耦的旋转位置编码(decoupled RoPE)进一步提升了效率,MTLA在注意力机制与线性模型之间架起桥梁,提供效率与性能的灵活权衡 [17][18] - 当时间压缩率s足够大时,MTLA几乎只保留一个KV缓存,退化为线性序列建模方法 [17] MTLA的性能表现与应用潜力 - MTLA在语音翻译、文本摘要生成等任务中保持与标准MHA相当的质量,同时实现超过5倍推理速度提升和8倍显存占用降低 [20] - MTLA具备大规模部署潜力,尤其适合参数规模扩大和生成序列增长的大语言模型场景,有望成为自注意力模块的重要替代方案 [23] - MTLA实现代码已开源,但工程落地需社区持续推动,改动复杂度高于GQA和MQA [24][25]
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 19:07
核心观点 - AI技术正在重新定义商业创新模式,企业需转变思路以保持竞争力 [1][2] - OpenAI和DeepSeek分别通过不同路径实现AI技术突破,为行业提供创新范式 [3][4] - AI能力的"涌现"现象成为技术跃迁的关键特征 [19][20][21] - 人机交互范式因ChatGPT发生根本性变革 [22][23][24] - 中国公司DeepSeek打破"美国原创、中国应用"的思维定式,展现基础研究实力 [75][77][78] OpenAI的创新路径 创立背景 - 2015年由马斯克和奥特曼创立,初衷是防止AI技术被巨头垄断 [9] - 从谷歌挖来核心科学家伊利亚·苏茨克维尔,坚持开源、安全、普惠理念 [10][12] 技术突破 - 基于Transformer架构的"自注意力机制"大幅提升语言理解能力 [13] - Scaling Law揭示模型规模与性能的线性关系,指导大规模投入 [15][16] - GPT系列模型通过"涌现"现象实现能力跃升,参数量临界点触发智能爆发 [19][20] 产品里程碑 - ChatGPT通过自然语言交互降低使用门槛,引发全球现象级应用 [22][23] - 推理模型o1实现从直觉思维(系统1)到理性推理(系统2)的认知跃迁 [26][30] DeepSeek的逆袭战略 技术路线 - 提出"有限Scaling Law",在资源受限下追求高性能 [32][33] - MLA技术优化内存效率,MoE架构实现计算资源动态分配 [38][39][42] - V3模型6710亿参数仅激活37亿,训练成本5557万美元(行业1/10) [44] 核心突破 - R1模型采用纯强化学习(类似AlphaGo Zero),展示完整推理过程 [45][47][49] - 在奥数竞赛中与OpenAI o1准确率相当,登顶美国应用榜单 [50][51] 组织创新 - 动态团队构成和自组织管理激发"涌现"式创新 [55][56][57] - 研究员自主提出MLA架构和训练公式,体现扁平化协作 [59][60] - 150人论文署名包含数据标注员,打破传统KPI束缚 [61][62] 行业启示 技术趋势 - AI从专用工具向通用智能演进,"涌现"成为能力突破关键指标 [20][21] - 对话式交互(ChatGPT)和推理能力(o1/R1)定义下一代AI标准 [23][26][45] 创新生态 - 中国公司首次在基础研究领域实现全球领先,打破技术跟随惯性 [75][77] - 资源效率(DeepSeek)与规模投入(OpenAI)并存,拓宽行业可能性 [32][44] 组织变革 - 传统金字塔管理让位于开放协作和资源自由调配的新型研发模式 [55][63][68] - "非标准人才"和纯粹技术热情成为创新核心驱动力 [66][67]
英伟达,我命由天不由我
虎嗅APP· 2025-03-07 18:35
英伟达的崛起与挑战 - 财报发布后五个交易日内股价两次单日跌幅超8%,单日跌幅相当于两个小米市值蒸发 [3] - 收入规模相当于四个茅台,收入和利润保持80%超高增速 [3] - 算力领域占据绝对领先地位,竞争对手难以撼动其地位 [3] - 创始人黄仁勋以亲民形象著称,擅长通过文化融合拓展市场 [4] - 公司内部实行高压管理,项目失败会面临"公开处决"式问责 [5] - 早期通过激进竞争策略击败50余家显卡公司,包括对3dfx的"趁你病要命"诉讼 [6][7][8] - 曾因与微软价格谈判破裂失去Xbox订单,后通过任天堂Switch业务扳回一城 [9][17] 战略转型与关键决策 - 早期尝试移动设备战略(Tegra芯片)和调制解调器业务(3.67亿美元收购Icera)均告失败 [15] - 坚持投入CUDA技术开发,尽管初期使用率不足1%且导致产品价格偏高 [18] - 面对激进投资者Starboard Value压力,果断砍掉失败业务但保留CUDA [16][17] - 2017年收购被Starboard Value施压的Mellanox,补强数据中心互联能力 [24][27] - 当前三大核心优势:GPU性能、CUDA生态、InfiniBand/NVlink高速互联技术 [26][27] 创始人特质与企业文化 - 黄仁勋管理风格兼具亲和力与极端严厉,被员工形容为"把手放进插座" [5] - 坚持长期投入"零亿美元市场",体现企业家情怀与战略定力 [20] - 将企业成功归因于"绝望才是成功之母",而非灵感或预见性 [23] - 保持高强度工作节奏(每天12-14小时,全年无休)推动AI技术发展 [32] - 童年移民经历塑造坚韧性格,曾每日遭受种族歧视欺凌 [29] 行业竞争格局 - 显卡行业早期竞争惨烈,存活需经历"尸山血海"式搏杀 [8] - 与AMD长期角力,包括争夺任天堂等关键客户 [17] - 面临地缘政治风险,中国市场自主替代可能构成长期威胁 [30] - AI算力领域当前处于绝对领先地位,"拿着望远镜也找不到对手" [3] 技术突破与产业影响 - 多伦多大学团队意外发现GPU可用于AI训练,催生AlexNet突破 [13][14] - CUDA技术最初服务于气候科学、医疗影像等小众科研领域 [18] - 当前AI发展高度依赖英伟达GPU硬件基础设施 [33] - 创始人坚信AI将全面造福人类,强烈反对"AI威胁论" [32]