自注意力机制 - 财报，业绩电话会，研报，新闻

自注意力机制

搜索文档

机器之心· 2025-06-11 08:24

Transformer架构的核心地位 - Transformer的自注意力机制在推理时能灵活建模长距离上下文，使其成为大语言模型不可替代的核心组件，尽管存在计算复杂度为二次方的问题 [1] - 线性复杂度的替代方案（如RNN、Linear Attention、SSM等）难以真正取代Transformer的地位，尤其在decoder-only架构广泛采用后，自注意力机制的重要性进一步凸显 [1] - 自注意力机制带来的KV缓存问题成为推理效率的关键瓶颈，其显存和带宽开销随模型参数维度扩大而显著上升，限制了推理长度与batch size [1] KV缓存的优化挑战与现有方案 - 当前主流大模型采用Grouped-Query Attention（GQA）机制，通过减少Key/Value头数量来减小KV缓存规模，在效率与效果间取得平衡 [5] - Multi-Query Attention（MQA）是GQA的极端形式，显存占用大幅减少但性能显著下降，而GQA成为大语言模型中最常见的注意力变体 [5] - DeepSeek团队提出的Multi-head Latent Attention（MLA）通过在隐空间压缩KV特征维度提升推理效率，但隐空间压缩幅度受限，KV缓存存储开销仍是瓶颈 [7] MTLA的创新与核心技术 - MTLA首次将时序压缩与隐空间压缩结合，在KV缓存的两个维度同时施加时空压缩策略，显著降低显存与计算成本 [2] - MTLA通过超网络动态融合相邻时间步信息，并设计步幅感知因果掩码确保训练与推理一致性，保持甚至略优于传统注意力机制的性能 [2][14] - 时间压缩率s=2时，MTLA对KV缓存的压缩程度与MQA相当但性能更优，且具备进一步压缩空间 [12][21] MTLA的训练与灵活性 - MTLA引入步幅感知因果掩码解决训练与推理行为不一致问题，保留所有中间状态KV表达，通过矩阵乘法实现高效并行计算 [14][16] - 解耦的旋转位置编码（decoupled RoPE）进一步提升了效率，MTLA在注意力机制与线性模型之间架起桥梁，提供效率与性能的灵活权衡 [17][18] - 当时间压缩率s足够大时，MTLA几乎只保留一个KV缓存，退化为线性序列建模方法 [17] MTLA的性能表现与应用潜力 - MTLA在语音翻译、文本摘要生成等任务中保持与标准MHA相当的质量，同时实现超过5倍推理速度提升和8倍显存占用降低 [20] - MTLA具备大规模部署潜力，尤其适合参数规模扩大和生成序列增长的大语言模型场景，有望成为自注意力模块的重要替代方案 [23] - MTLA实现代码已开源，但工程落地需社区持续推动，改动复杂度高于GQA和MQA [24][25]

大语言模型

自注意力机制

Artificial Intelligence

Artificial Intelligence

MTLA

MLA

GQA

一文了解DeepSeek和OpenAI：企业家为什么需要认知型创新？

混沌学园· 2025-06-10 19:07

核心观点 - AI技术正在重新定义商业创新模式，企业需转变思路以保持竞争力 [1][2] - OpenAI和DeepSeek分别通过不同路径实现AI技术突破，为行业提供创新范式 [3][4] - AI能力的"涌现"现象成为技术跃迁的关键特征 [19][20][21] - 人机交互范式因ChatGPT发生根本性变革 [22][23][24] - 中国公司DeepSeek打破"美国原创、中国应用"的思维定式，展现基础研究实力 [75][77][78] OpenAI的创新路径创立背景 - 2015年由马斯克和奥特曼创立，初衷是防止AI技术被巨头垄断 [9] - 从谷歌挖来核心科学家伊利亚·苏茨克维尔，坚持开源、安全、普惠理念 [10][12] 技术突破 - 基于Transformer架构的"自注意力机制"大幅提升语言理解能力 [13] - Scaling Law揭示模型规模与性能的线性关系，指导大规模投入 [15][16] - GPT系列模型通过"涌现"现象实现能力跃升，参数量临界点触发智能爆发 [19][20] 产品里程碑 - ChatGPT通过自然语言交互降低使用门槛，引发全球现象级应用 [22][23] - 推理模型o1实现从直觉思维（系统1）到理性推理（系统2）的认知跃迁 [26][30] DeepSeek的逆袭战略技术路线 - 提出"有限Scaling Law"，在资源受限下追求高性能 [32][33] - MLA技术优化内存效率，MoE架构实现计算资源动态分配 [38][39][42] - V3模型6710亿参数仅激活37亿，训练成本5557万美元（行业1/10） [44] 核心突破 - R1模型采用纯强化学习（类似AlphaGo Zero），展示完整推理过程 [45][47][49] - 在奥数竞赛中与OpenAI o1准确率相当，登顶美国应用榜单 [50][51] 组织创新 - 动态团队构成和自组织管理激发"涌现"式创新 [55][56][57] - 研究员自主提出MLA架构和训练公式，体现扁平化协作 [59][60] - 150人论文署名包含数据标注员，打破传统KPI束缚 [61][62] 行业启示技术趋势 - AI从专用工具向通用智能演进，"涌现"成为能力突破关键指标 [20][21] - 对话式交互（ChatGPT）和推理能力（o1/R1）定义下一代AI标准 [23][26][45] 创新生态 - 中国公司首次在基础研究领域实现全球领先，打破技术跟随惯性 [75][77] - 资源效率（DeepSeek）与规模投入（OpenAI）并存，拓宽行业可能性 [32][44] 组织变革 - 传统金字塔管理让位于开放协作和资源自由调配的新型研发模式 [55][63][68] - "非标准人才"和纯粹技术热情成为创新核心驱动力 [66][67]

虎嗅APP· 2025-03-07 18:35

英伟达的崛起与挑战 - 财报发布后五个交易日内股价两次单日跌幅超8%，单日跌幅相当于两个小米市值蒸发 [3] - 收入规模相当于四个茅台，收入和利润保持80%超高增速 [3] - 算力领域占据绝对领先地位，竞争对手难以撼动其地位 [3] - 创始人黄仁勋以亲民形象著称，擅长通过文化融合拓展市场 [4] - 公司内部实行高压管理，项目失败会面临"公开处决"式问责 [5] - 早期通过激进竞争策略击败50余家显卡公司，包括对3dfx的"趁你病要命"诉讼 [6][7][8] - 曾因与微软价格谈判破裂失去Xbox订单，后通过任天堂Switch业务扳回一城 [9][17] 战略转型与关键决策 - 早期尝试移动设备战略（Tegra芯片）和调制解调器业务（3.67亿美元收购Icera）均告失败 [15] - 坚持投入CUDA技术开发，尽管初期使用率不足1%且导致产品价格偏高 [18] - 面对激进投资者Starboard Value压力，果断砍掉失败业务但保留CUDA [16][17] - 2017年收购被Starboard Value施压的Mellanox，补强数据中心互联能力 [24][27] - 当前三大核心优势：GPU性能、CUDA生态、InfiniBand/NVlink高速互联技术 [26][27] 创始人特质与企业文化 - 黄仁勋管理风格兼具亲和力与极端严厉，被员工形容为"把手放进插座" [5] - 坚持长期投入"零亿美元市场"，体现企业家情怀与战略定力 [20] - 将企业成功归因于"绝望才是成功之母"，而非灵感或预见性 [23] - 保持高强度工作节奏（每天12-14小时，全年无休）推动AI技术发展 [32] - 童年移民经历塑造坚韧性格，曾每日遭受种族歧视欺凌 [29] 行业竞争格局 - 显卡行业早期竞争惨烈，存活需经历"尸山血海"式搏杀 [8] - 与AMD长期角力，包括争夺任天堂等关键客户 [17] - 面临地缘政治风险，中国市场自主替代可能构成长期威胁 [30] - AI算力领域当前处于绝对领先地位，"拿着望远镜也找不到对手" [3] 技术突破与产业影响 - 多伦多大学团队意外发现GPU可用于AI训练，催生AlexNet突破 [13][14] - CUDA技术最初服务于气候科学、医疗影像等小众科研领域 [18] - 当前AI发展高度依赖英伟达GPU硬件基础设施 [33] - 创始人坚信AI将全面造福人类，强烈反对"AI威胁论" [32]