Workflow
Transformer架构
icon
搜索文档
20分钟读懂AI史上最重要的一篇论文——《Attention Is All You Need》
虎嗅· 2025-10-22 21:05
行业技术发展 - Transformer架构于2017年通过论文《Attention Is All You Need》首次提出,彻底改变了人工智能的技术路径 [1] - 该架构推动了全球AI领域的“军备竞赛”,并催生了包括OpenAI在内的行业巨头迅速崛起 [1] 核心技术解析 - Transformer的核心思想源自注意力机制,涉及Q/K/V、多头注意力、位置编码以及Decoder的mask机制等关键概念 [1] - 该技术实现了从逐字生成文本的功能,其原理可通过基础数学概念理解 [1] 行业人才动态 - 提出Transformer架构的8位论文作者均已离开Google并投身创业 [1] - 这些创始人在创业过程中创造了惊人的财富传奇 [1]
唯快不破:上海AI Lab 82页综述带你感受LLM高效架构的魅力
机器之心· 2025-08-25 17:10
大语言模型效率挑战与架构演进 - 大语言模型(LLMs)如GPT、Claude、Gemini等在语言理解、生成、代码生成等任务取得突破,但模型规模和数据量快速扩张导致算力和存储资源消耗急剧增加,训练与推理成本居高不下成为应用瓶颈 [2] - Transformer架构的自注意力机制存在O(N²)计算复杂度问题,在长序列任务中成本高昂,FFN部分的密集MLP层也面临效率问题 [3] - 新兴应用场景如RAG、智能体、长链推理和多模态进一步放长了序列需求,加剧了效率与性能之间的矛盾 [3] 高效架构研究综述 - 上海AI Lab联合多家机构总结440余篇论文,形成82页综述论文《Speed Always Wins: A Survey on Efficient Architectures for Large Language Models》,系统梳理LLM高效架构最新进展 [5][7] - 综述将高效架构分为7大类:线性序列建模、稀疏序列建模、高效全注意力、稀疏专家模型、混合模型架构、扩散语言模型和其他模态应用 [6][8] - 研究目标是在算力受限条件下持续推动AI发展,涉及方法类别和代表性论文已形成完整组织架构 [8][10] 线性序列建模技术 - 线性序列建模是研究热点方向,包括Mamba、Lighting Attention、RWKV等代表性工作,通过降低注意力训练和推理复杂度,无需KV Cache开销 [6][11] - 这些方法可概括为统一建模数学形式,通过线性化过程将预训练模型的Softmax Attention架构转为Linear Sequence Modeling架构,实现效率大幅提升 [11] - 具体分为线性注意力、线性RNN、状态空间模型和测试时推理RNN四类,从记忆视角和优化器视角进行统一对比 [12][14][15] - 线性化技术进一步细分为基于微调的线性化和基于蒸馏的线性化 [15] - 硬件高效实现方法包括Blelloch Scan、Chunk-wise Parallel和Recurrent for Inferences三种范式 [17] 稀疏序列建模方法 - 稀疏序列建模利用Attention Map天然稀疏性加速计算,分为静态稀疏注意力、动态稀疏注意力和免训练稀疏注意力三类 [21][24] - 代表性方法包括Global Attention、Window Attention、Dilated Attention等,通过不同稀疏模式降低计算与显存需求 [21][23] 高效全注意力优化 - 高效全注意力在保持完整注意力前提下优化内存访问与KV存储,分为IO-Aware Attention、Grouped Attention、Mixture of Attention和Quantized Attention四类 [22][25] - IO-Aware Attention包含广泛使用的Flash Attention系列,Grouped Attention包含GQA、MLA等全注意力变体 [22][28] 稀疏混合专家系统 - 稀疏混合专家(MoE)已成为语言和多模态大模型架构事实标准,通过对FFN模块改进大幅提升模型容量而不增加计算成本 [26][27] - 分为路由机制、专家架构和MoE转换三个方向,路由机制包括Token-choice和Expert-choice两类 [27][29][31] - 专家结构创新包括共享专家、细粒度专家、零专家、深度路由等 [31][33] - MoE转换通过Split、Copy、Merge等手段构造专家 [33] 混合架构设计 - 混合架构在线性/稀疏注意力和全注意力间取得平衡,分为层间混合和层内混合两种形式,在效率与效果间找到最佳平衡点 [34][35][37] 扩散语言模型进展 - 扩散大语言模型将扩散模型从视觉生成迁移至语言任务,在生成速度上取得大幅进步,分为非自回归扩散LLM、桥接扩散与自回归LLM以及扩展至多模态三类 [38][39][40][42] 多模态应用扩展 - 高效架构已扩展至视觉、音频和多模态领域,以Mamba为代表的线性模型在分类、检测、分割、生成、医疗、自动驾驶等多个视觉任务取得优秀表现 [43][44] - 在音频领域应用于理解、增强与生成任务,多模态领域涵盖理解与统一模型 [43][44] - 应用案例包括InsectMamba、V-MoE、Audio mamba、MaTAV等众多模型 [44]
ChatGPT见顶后,AI新战场世界模型:中国已经先行一步!
老徐抓AI趋势· 2025-07-31 09:03
AI发展阶段 - AI发展分为三个阶段:感知AI、生成式AI、具身AI [5][7][16] - 感知AI阶段始于2012年,图像识别准确率超越人类,但知识量有限(1400万张图片≈人类10年标注时间)[7][9] - 生成式AI阶段始于2017年,Transformer架构和GPU算力提升推动大语言模型发展,GPT-3训练数据达7500亿Token(≈人类10万年书写量)[12][13] 大语言模型瓶颈 - 互联网训练数据预计2028年枯竭,大语言模型增长面临天花板 [15] - AI需转向新学习方式,通过真实环境交互实现持续进化 [16][18] 世界模型定义与价值 - 世界模型是高精度物理规律模拟器,支持AI虚拟试错训练 [19] - 解决传统AI生成视频的物理错乱问题(如穿车、不合逻辑的物体交互)[20] - 自动驾驶训练成本大幅降低:虚拟场景可定制天气、光线、路况,替代百万小时现实数据采集 [19][22][23] 商汤科技技术突破 - 推出"开悟"世界模型,支持自然语言描述生成多视角物理合规视频 [22] - 发布"悟能"平台,整合世界模型与感知/导航能力,构建机器人虚拟训练环境 [24] - 技术应用覆盖自动驾驶、机器人操作等物理交互场景 [25][26] 行业竞争格局 - 世界模型将重塑AI数据生产方式(自我生成替代互联网采集)、训练效率(秒级仿真)、产业落地(制造业/医疗/教育等)[28] - 类比移动互联网发展:大语言模型类似"智能手机",世界模型类似"App Store",推动AI进入物理世界 [28] - 中国企业在世界模型领域已提前布局,技术升级节奏可能快于大语言模型周期(1-2年内或现突破)[28][30] 经济影响 - 世界模型与具身AI结合将推动机器人从工具向伙伴演进,加速AGI时代到来 [28] - 技术革命有望显著拉动经济增长,类似移动互联网对生产力的提升效应 [29]
技术创新的性质
36氪· 2025-05-19 18:14
需求驱动创新 - 技术创新源于实际需求,如地理大发现源于欧洲人对香料的需求,计算机起源于二战军事需求[2] - 人工智能作为重要驱动力量,但"AI四小龙"因缺乏落地场景而发展不佳[2] - 技术必须与经济目的结合才能推广,未落地的先进技术如同空中楼阁[2] 创新试错成本 - 创新本质是探索性实践,需通过大量试错实现,如爱迪生测试6000多种灯丝材料[3] - 核能技术进展缓慢,全球发电占比从1990年代17%降至现今9%,主因试错成本高[3] - 制造业数字化改造容错空间小,而网络空间试错成本低,成为技术试验田[5] 渐进式创新特征 - 重大创新均为长期迭代结果,如蒸汽机经60年改良才推动工业革命[6] - 计算机发展经历多代技术更迭(Z3/ABC/Colossus/ENIAC),40年后才普及民用[7][8] - 创新常被误认为突变,实际是"十年寒窗无人问"的积累过程[8] 创新发生规律 - 资源匮乏地区(如以色列、日本)创新动力更强,资源型国家易患"荷兰病"[9] - 大企业易受路径依赖束缚,柯达、诺基亚因未能适应技术变革而衰落[9] - 重大创新常诞生于边缘领域,如量化投资公司分拆团队开发出顶尖AI模型[10] 创新生态要素 - 人才流动促进"异花授粉",移民占美国科技行业半边天,北上深集聚全国独角兽[11] - Transformer架构论文8名作者来自7国,体现基因多样性价值[11] 创新年龄趋势 - 20世纪重大创新72%发生在30-50岁,26岁前仅占7%,50岁后占14%[13] - 创新高峰年龄从1900年的30岁推迟至2000年的40岁[13] 创新不可预测性 - 历史显示创新常同步独立发生,如21人独立发明电灯泡[15] - 权威预测屡现失误:IBM原总裁曾认为全球只需5台计算机[15] - 当前AI领袖对AGI实现时间预测差异显著(2025-2035年不等)[17][18]
欧米伽未来研究所:100部前沿科技未来发展趋势报告综述(2025年3月)
欧米伽未来研究所2025· 2025-04-06 13:22
人工智能 - 人工智能发展进入新阶段,从"无所不在"向"无所不能"飞跃,朝着精细化、实用化、智能化与责任化方向迈进 [1] - 大语言模型(LLM)研究热度持续,如DeepSeek成为业界焦点,生态构建和能力挖掘(如多模态、逻辑推理)成为重点方向 [2] - AI智能体与具身智能崛起,斯坦福、伯克利等学术机构研究让AI从数字世界走向物理世界,成为执行现实任务的协作智能体 [3] - AI全面渗透科研、教育、医疗、工业、金融、交通及军事领域,例如加速科学发现、革新教育模式、推动新药研发和制造业升级 [4] 能源革命 - 可再生能源进入系统性布局阶段,光伏系统KPI和建筑光伏一体化(BIPV)技术创新提升效率与应用场景 [7] - 能源结构多元化发展,核能、生物燃料等清洁能源路径与储能技术受重视,保障能源安全 [7] - 能源系统智能化加速,AI与能源结合推动智能水电、智能电网等高效化管理 [7] 机器人浪潮 - 人形机器人成为焦点,技术路线、产业链和商业化布局加速,AI被视为推动通用智能的关键因素 [8] - 专用机器人应用深化,如手术机器人、农业无人机、四足机器狗等在特定领域展现潜力 [8] - 无人机技术持续演进,蜂群、空天地一体化网络等推动其成为未来立体互联网络节点 [8] 前沿科技基石 - 半导体产业竞争加剧,各国加紧布局以重塑全球芯片产业格局 [9] - 量子计算从理论走向应用探索,专利布局和产业投资加速,成为大国博弈新前沿 [9] - 连接技术升级,5G-A与AI结合、RedCap物联网技术等构建更智能的数字连接底座 [9] 数字化生存 - 网络安全形势严峻,AI驱动的攻防成为新常态,数据安全与身份认证面临挑战 [11] - AI对劳动力影响显著,人机协同成为常态,终身学习与技能更新至关重要 [11] 总结 - 2025年3月科技趋势以AI为核心,多领域技术深度融合,从微观算法到宏观产业生态全面突破 [12] - 技术双刃剑效应凸显,需加强前瞻性治理与全球合作以应对安全、伦理和社会影响挑战 [12]
中国城市AI大战,北京才出一栋楼就赢了
创业邦· 2025-03-25 11:09
以下文章来源于华商韬略 ,作者华商韬略 华商韬略 . 聚焦标杆与热点、解构趋势与韬略 来源丨华商韬略( ID:hstl8888 ) 作者丨刘柏铖 图源丨midjourney DeepSeek之后,中国AI加速。 国内一、二线城市们的焦虑也进一步加深。 但北京,有些不一样。 AI,离不开北京 北京似乎不担心"会不会错过DeepSeek",因为DeepSeek更担心自己错过北京。 尤其是错过这里的人。 先后爆火的DeepSeek和Manus,明面上是分别起家于杭州和武汉,但其核心团队却均身处北京,甚至其各自的北京分公司比本地分公 司成立还要早。 曾有创业者调侃"只要人不走(出北京),事儿就不走(出北京)了"。 21世纪最贵的人才,北京就是有人才。 彼时,谷歌刚刚提出突破性的Transformer架构——此后的多年,不论是ChatGPT还是DeepSeek均是在此基础上诞生。 而事实上,Transformer架构的相关理念,早在谷歌之前就已被中国AI奠基人、中科院院士张钹提出。 为什么北京没有把张院士的理念变成现实,把Transformer架构做出来?往后如何不再有这样的遗憾? 会议上各种方案争论很久,期间前微软亚 ...