Transformer架构

搜索文档

20分钟读懂AI史上最重要的一篇论文——《Attention Is All You Need》

虎嗅· 2025-10-22 21:05

行业技术发展 - Transformer架构于2017年通过论文《Attention Is All You Need》首次提出，彻底改变了人工智能的技术路径 [1] - 该架构推动了全球AI领域的“军备竞赛”，并催生了包括OpenAI在内的行业巨头迅速崛起 [1] 核心技术解析 - Transformer的核心思想源自注意力机制，涉及Q/K/V、多头注意力、位置编码以及Decoder的mask机制等关键概念 [1] - 该技术实现了从逐字生成文本的功能，其原理可通过基础数学概念理解 [1] 行业人才动态 - 提出Transformer架构的8位论文作者均已离开Google并投身创业 [1] - 这些创始人在创业过程中创造了惊人的财富传奇 [1]

人工智能

Transformer

注意力机制

Artificial Intelligence

Artificial Intelligence

Transformer架构

ChatGPT

唯快不破：上海AI Lab 82页综述带你感受LLM高效架构的魅力

机器之心· 2025-08-25 17:10

大语言模型效率挑战与架构演进 - 大语言模型（LLMs）如GPT、Claude、Gemini等在语言理解、生成、代码生成等任务取得突破，但模型规模和数据量快速扩张导致算力和存储资源消耗急剧增加，训练与推理成本居高不下成为应用瓶颈 [2] - Transformer架构的自注意力机制存在O(N²)计算复杂度问题，在长序列任务中成本高昂，FFN部分的密集MLP层也面临效率问题 [3] - 新兴应用场景如RAG、智能体、长链推理和多模态进一步放长了序列需求，加剧了效率与性能之间的矛盾 [3] 高效架构研究综述 - 上海AI Lab联合多家机构总结440余篇论文，形成82页综述论文《Speed Always Wins: A Survey on Efficient Architectures for Large Language Models》，系统梳理LLM高效架构最新进展 [5][7] - 综述将高效架构分为7大类：线性序列建模、稀疏序列建模、高效全注意力、稀疏专家模型、混合模型架构、扩散语言模型和其他模态应用 [6][8] - 研究目标是在算力受限条件下持续推动AI发展，涉及方法类别和代表性论文已形成完整组织架构 [8][10] 线性序列建模技术 - 线性序列建模是研究热点方向，包括Mamba、Lighting Attention、RWKV等代表性工作，通过降低注意力训练和推理复杂度，无需KV Cache开销 [6][11] - 这些方法可概括为统一建模数学形式，通过线性化过程将预训练模型的Softmax Attention架构转为Linear Sequence Modeling架构，实现效率大幅提升 [11] - 具体分为线性注意力、线性RNN、状态空间模型和测试时推理RNN四类，从记忆视角和优化器视角进行统一对比 [12][14][15] - 线性化技术进一步细分为基于微调的线性化和基于蒸馏的线性化 [15] - 硬件高效实现方法包括Blelloch Scan、Chunk-wise Parallel和Recurrent for Inferences三种范式 [17] 稀疏序列建模方法 - 稀疏序列建模利用Attention Map天然稀疏性加速计算，分为静态稀疏注意力、动态稀疏注意力和免训练稀疏注意力三类 [21][24] - 代表性方法包括Global Attention、Window Attention、Dilated Attention等，通过不同稀疏模式降低计算与显存需求 [21][23] 高效全注意力优化 - 高效全注意力在保持完整注意力前提下优化内存访问与KV存储，分为IO-Aware Attention、Grouped Attention、Mixture of Attention和Quantized Attention四类 [22][25] - IO-Aware Attention包含广泛使用的Flash Attention系列，Grouped Attention包含GQA、MLA等全注意力变体 [22][28] 稀疏混合专家系统 - 稀疏混合专家（MoE）已成为语言和多模态大模型架构事实标准，通过对FFN模块改进大幅提升模型容量而不增加计算成本 [26][27] - 分为路由机制、专家架构和MoE转换三个方向，路由机制包括Token-choice和Expert-choice两类 [27][29][31] - 专家结构创新包括共享专家、细粒度专家、零专家、深度路由等 [31][33] - MoE转换通过Split、Copy、Merge等手段构造专家 [33] 混合架构设计 - 混合架构在线性/稀疏注意力和全注意力间取得平衡，分为层间混合和层内混合两种形式，在效率与效果间找到最佳平衡点 [34][35][37] 扩散语言模型进展 - 扩散大语言模型将扩散模型从视觉生成迁移至语言任务，在生成速度上取得大幅进步，分为非自回归扩散LLM、桥接扩散与自回归LLM以及扩展至多模态三类 [38][39][40][42] 多模态应用扩展 - 高效架构已扩展至视觉、音频和多模态领域，以Mamba为代表的线性模型在分类、检测、分割、生成、医疗、自动驾驶等多个视觉任务取得优秀表现 [43][44] - 在音频领域应用于理解、增强与生成任务，多模态领域涵盖理解与统一模型 [43][44] - 应用案例包括InsectMamba、V-MoE、Audio mamba、MaTAV等众多模型 [44]

ChatGPT见顶后，AI新战场世界模型：中国已经先行一步！

老徐抓AI趋势· 2025-07-31 09:03

AI发展阶段 - AI发展分为三个阶段：感知AI、生成式AI、具身AI [5][7][16] - 感知AI阶段始于2012年，图像识别准确率超越人类，但知识量有限（1400万张图片≈人类10年标注时间）[7][9] - 生成式AI阶段始于2017年，Transformer架构和GPU算力提升推动大语言模型发展，GPT-3训练数据达7500亿Token（≈人类10万年书写量）[12][13] 大语言模型瓶颈 - 互联网训练数据预计2028年枯竭，大语言模型增长面临天花板 [15] - AI需转向新学习方式，通过真实环境交互实现持续进化 [16][18] 世界模型定义与价值 - 世界模型是高精度物理规律模拟器，支持AI虚拟试错训练 [19] - 解决传统AI生成视频的物理错乱问题（如穿车、不合逻辑的物体交互）[20] - 自动驾驶训练成本大幅降低：虚拟场景可定制天气、光线、路况，替代百万小时现实数据采集 [19][22][23] 商汤科技技术突破 - 推出"开悟"世界模型，支持自然语言描述生成多视角物理合规视频 [22] - 发布"悟能"平台，整合世界模型与感知/导航能力，构建机器人虚拟训练环境 [24] - 技术应用覆盖自动驾驶、机器人操作等物理交互场景 [25][26] 行业竞争格局 - 世界模型将重塑AI数据生产方式（自我生成替代互联网采集）、训练效率（秒级仿真）、产业落地（制造业/医疗/教育等）[28] - 类比移动互联网发展：大语言模型类似"智能手机"，世界模型类似"App Store"，推动AI进入物理世界 [28] - 中国企业在世界模型领域已提前布局，技术升级节奏可能快于大语言模型周期（1-2年内或现突破）[28][30] 经济影响 - 世界模型与具身AI结合将推动机器人从工具向伙伴演进，加速AGI时代到来 [28] - 技术革命有望显著拉动经济增长，类似移动互联网对生产力的提升效应 [29]

36氪· 2025-05-19 18:14

需求驱动创新 - 技术创新源于实际需求，如地理大发现源于欧洲人对香料的需求，计算机起源于二战军事需求[2] - 人工智能作为重要驱动力量，但"AI四小龙"因缺乏落地场景而发展不佳[2] - 技术必须与经济目的结合才能推广，未落地的先进技术如同空中楼阁[2] 创新试错成本 - 创新本质是探索性实践，需通过大量试错实现，如爱迪生测试6000多种灯丝材料[3] - 核能技术进展缓慢，全球发电占比从1990年代17%降至现今9%，主因试错成本高[3] - 制造业数字化改造容错空间小，而网络空间试错成本低，成为技术试验田[5] 渐进式创新特征 - 重大创新均为长期迭代结果，如蒸汽机经60年改良才推动工业革命[6] - 计算机发展经历多代技术更迭（Z3/ABC/Colossus/ENIAC），40年后才普及民用[7][8] - 创新常被误认为突变，实际是"十年寒窗无人问"的积累过程[8] 创新发生规律 - 资源匮乏地区（如以色列、日本）创新动力更强，资源型国家易患"荷兰病"[9] - 大企业易受路径依赖束缚，柯达、诺基亚因未能适应技术变革而衰落[9] - 重大创新常诞生于边缘领域，如量化投资公司分拆团队开发出顶尖AI模型[10] 创新生态要素 - 人才流动促进"异花授粉"，移民占美国科技行业半边天，北上深集聚全国独角兽[11] - Transformer架构论文8名作者来自7国，体现基因多样性价值[11] 创新年龄趋势 - 20世纪重大创新72%发生在30-50岁，26岁前仅占7%，50岁后占14%[13] - 创新高峰年龄从1900年的30岁推迟至2000年的40岁[13] 创新不可预测性 - 历史显示创新常同步独立发生，如21人独立发明电灯泡[15] - 权威预测屡现失误：IBM原总裁曾认为全球只需5台计算机[15] - 当前AI领袖对AGI实现时间预测差异显著（2025-2035年不等）[17][18]

欧米伽未来研究所：100部前沿科技未来发展趋势报告综述（2025年3月）

欧米伽未来研究所2025· 2025-04-06 13:22

人工智能 - 人工智能发展进入新阶段，从"无所不在"向"无所不能"飞跃，朝着精细化、实用化、智能化与责任化方向迈进 [1] - 大语言模型（LLM）研究热度持续，如DeepSeek成为业界焦点，生态构建和能力挖掘（如多模态、逻辑推理）成为重点方向 [2] - AI智能体与具身智能崛起，斯坦福、伯克利等学术机构研究让AI从数字世界走向物理世界，成为执行现实任务的协作智能体 [3] - AI全面渗透科研、教育、医疗、工业、金融、交通及军事领域，例如加速科学发现、革新教育模式、推动新药研发和制造业升级 [4] 能源革命 - 可再生能源进入系统性布局阶段，光伏系统KPI和建筑光伏一体化（BIPV）技术创新提升效率与应用场景 [7] - 能源结构多元化发展，核能、生物燃料等清洁能源路径与储能技术受重视，保障能源安全 [7] - 能源系统智能化加速，AI与能源结合推动智能水电、智能电网等高效化管理 [7] 机器人浪潮 - 人形机器人成为焦点，技术路线、产业链和商业化布局加速，AI被视为推动通用智能的关键因素 [8] - 专用机器人应用深化，如手术机器人、农业无人机、四足机器狗等在特定领域展现潜力 [8] - 无人机技术持续演进，蜂群、空天地一体化网络等推动其成为未来立体互联网络节点 [8] 前沿科技基石 - 半导体产业竞争加剧，各国加紧布局以重塑全球芯片产业格局 [9] - 量子计算从理论走向应用探索，专利布局和产业投资加速，成为大国博弈新前沿 [9] - 连接技术升级，5G-A与AI结合、RedCap物联网技术等构建更智能的数字连接底座 [9] 数字化生存 - 网络安全形势严峻，AI驱动的攻防成为新常态，数据安全与身份认证面临挑战 [11] - AI对劳动力影响显著，人机协同成为常态，终身学习与技能更新至关重要 [11] 总结 - 2025年3月科技趋势以AI为核心，多领域技术深度融合，从微观算法到宏观产业生态全面突破 [12] - 技术双刃剑效应凸显，需加强前瞻性治理与全球合作以应对安全、伦理和社会影响挑战 [12]

创业邦· 2025-03-25 11:09

以下文章来源于华商韬略，作者华商韬略华商韬略 . 聚焦标杆与热点、解构趋势与韬略来源丨华商韬略（ ID：hstl8888 ）作者丨刘柏铖图源丨midjourney DeepSeek之后，中国AI加速。国内一、二线城市们的焦虑也进一步加深。但北京，有些不一样。 AI，离不开北京北京似乎不担心"会不会错过DeepSeek"，因为DeepSeek更担心自己错过北京。尤其是错过这里的人。先后爆火的DeepSeek和Manus，明面上是分别起家于杭州和武汉，但其核心团队却均身处北京，甚至其各自的北京分公司比本地分公司成立还要早。曾有创业者调侃"只要人不走（出北京），事儿就不走（出北京）了"。 21世纪最贵的人才，北京就是有人才。彼时，谷歌刚刚提出突破性的Transformer架构——此后的多年，不论是ChatGPT还是DeepSeek均是在此基础上诞生。而事实上，Transformer架构的相关理念，早在谷歌之前就已被中国AI奠基人、中科院院士张钹提出。为什么北京没有把张院士的理念变成现实，把Transformer架构做出来？往后如何不再有这样的遗憾？会议上各种方案争论很久，期间前微软亚 ...

Artificial Intelligence

Transformer架构

DCFormer架构

Artificial Intelligence

Transformer架构

DCFormer架构