Workflow
Transformer
icon
搜索文档
全球首个「百万引用」学者诞生!Bengio封神,辛顿、何恺明紧跟
自动驾驶之心· 2025-10-26 00:03
AI领域学术影响力里程碑 - Yoshua Bengio成为全球首位论文引用量突破100万次的学者,标志着AI学术影响力达到新高峰[2][3] - Geoffrey Hinton以97万次引用紧随其后,有望成为全球第二位突破百万引用的学者[5] - 深度学习三巨头(Bengio、Hinton、Yann LeCun)共同获得2018年图灵奖,其中LeCun引用量超过43万次[6][7][13] 顶尖AI研究者学术成就 - Yoshua Bengio在全球计算机科学领域排名第一,总引用量987,920次,近五年引用量711,796次,占比72%[8] - Geoffrey Hinton全球排名第二,总引用量963,982次,近五年引用量588,843次,占比61.1%[8] - 何恺明论文总被引超过75万次,其2016年发表的深度残差网络(ResNets)论文被引298,327次,是二十一世纪被引用次数最多的论文[48][51] - Ilya Sutskever论文总被引超过70万次,作为OpenAI和ChatGPT缔造者,与Hinton存在师徒关系[53][18] AI论文引用爆发式增长原因 - 2012年AlexNet在ImageNet上的突破性表现被视为深度学习"引爆点"[20] - 2017年Transformer架构提出和2018年BERT模型出现,推动预训练/微调范式发展,带来AI论文二次爆发[24] - 2010-2022年全球AI论文总量从约8.8万篇增长至24万篇以上,实现近三倍增长[30] - AI论文占计算机科学论文比例从2013年的21.6%升至2023年的41.8%,几乎占据计算机科学领域一半论文[31][32] AI领域学术会议活跃度 - ICLR 2024接收论文2260篇,投稿量较2023年增加2324篇[36] - NeurIPS 2024总投稿17491篇(主会15671篇),接收4497篇[36] - CVPR 2024投稿11532篇,接收2719篇,录用率23.6%[36] 其他高影响力AI研究者 - GAN之父Ian Goodfellow引用量38万+[61] - 谷歌人工智能负责人Jeff Dean引用量37万+[61] - ImageNet创建者李飞飞引用量32万+[61] - LSTM之父Juergen Schmidhuber引用量29万+,其1997年LSTM论文被引136,740次[61][67] - Coursera创始人吴恩达引用量29万+[61] - Gemini技术负责人Noam Shazeer引用量28万+,其参与的"Attention is All You Need"论文被引209,694次[61][69]
Meta打碎Transformer 8年铁律,改写AI最底层规则,模型首次冒出潜意识
36氪· 2025-10-24 19:47
核心观点 - Meta推出名为“自由Transformer”的新模型,首次打破自2017年以来所有GPT模型的核心规则,模型在生成前能进行“预先思考”,而不再是逐token盲猜式生成[1] - 该创新通过在解码器中引入潜在随机变量Z,为Transformer增加一层“潜意识”,使模型能够早期做出全局决策,从而产生更一致和稳定的输出[3][10][22] - 这一架构变革仅增加约3%的计算开销,但在GSM8K、MMLU、HumanEval等多项基准测试中表现显著提升,可能标志着AI模型从“预测下一个词”迈向“思考如何表达”的重要节点[3][24][31] 技术架构创新 - 模型在解码器中引入了潜在随机变量Z,可视为生成文本前的“潜意识层”,模型会采样内部选择来引导整个序列的风格或结构[4] - 技术实现是通过内置在Transformer内部的条件变分自编码器完成的,Meta将其命名为Free Transformer[4] - 与标准Transformer仅根据前序token预测下一个token不同,Free Transformer先采样一个随机状态Z,然后让每个标记都基于该状态生成[7][20] - 在训练过程中使用编码器帮助模型学会选取良好的隐藏状态,但在推理时跳过编码器,直接采样隐藏状态并仅运行解码器,这避免了使成本翻倍的问题[8][9][12][13][14] - 该设计使模型仅增加约3-4%的FLOPs计算开销,大幅降低了计算负担[15][19] 性能表现 - 在1.5B参数模型上,Free Transformer在多项测试中表现显著提升:HumanEval+得分最高提升55.56%,MBPP测试最高提升35.71%,GSM8K数学题集最高提升30.30%[26][28] - 在8B参数模型上同样观察到性能改善:HumanEval+得分最高提升19.23%,MBPP测试最高提升18.71%,GSM8K数学题集最高提升20.18%[30] - 模型训练保持稳定,没有出现训练崩溃或异常波动[27] - 潜在变量Z被证明能够编码有用的全局结构信息,如主题、情感或模式位置,而不会过拟合[17][38] 潜在变量机制 - 潜在随机变量Z从65536种可能性中选取,由16个独立比特构建而成[18] - 采用KL散度惩罚结合自由比特方法进行训练,防止隐状态记忆整个序列,仅在散度大于阈值κ时添加KL损失[17] - 通过控制κ值(从1/64 bit到8 bits),可以调控Z携带的信息量:信息过少则模型表现接近普通解码器,信息过多则会导致训练退化[37][38] - 在合成任务测试中,Z成功学会了编码目标位置和噪声模式等全局属性,证明了其规划能力[32][35][36][38] 行业影响 - 这一突破可能动摇持续8年的Transformer底层架构,改写AI最底层规则[1][3] - 该研究来自Meta的FAIR实验室,由Yann LeCun领导的团队进行,专注于超越LLM的下一代人工智能研究[39][41][43] - 创新标志着Transformer思维方式的重塑,从“预测下一个词”迈向“思考如何表达”,可能开启后自回归时代[30][31]
八年后,Meta教会了Transformer「显式思考」
机器之心· 2025-10-24 11:40
文章核心观点 - Meta公司提出名为Free Transformer的新架构,打破了自2017年以来GPT模型的核心规则 [4] - 新方法在解码器内部加入随机潜在变量,使模型在生成内容前能进行内部规划,类似于赋予模型“隐藏的心智” [4] - 在15亿和80亿参数模型上,该方法在代码生成、数学文字题和多选任务上取得明显性能提升 [6][27][31] 技术架构创新 - Free Transformer是一种新解码器Transformer扩展,使用无监督潜在变量来提高下游任务性能 [4] - 架构是在标准解码器结构的中间层注入噪声Z,允许与编码器共享一半的Transformer模块,显著减少计算开销 [9] - 编码器使用非因果结构和可学习的常数token嵌入,旨在捕捉序列全局特征,增强跨任务可迁移性 [14] - 通过二进制映射器将编码器输出的向量转化为独热向量表示,维度为2^H(H=16) [15][16] 实验验证与性能表现 - 在合成数据集上验证了模型确实利用潜在变量Z对生成过程进行条件化,不同KL散度值下模型表现出不同编码行为 [18][21] - 15亿参数模型在代码生成任务HumanEval+上最高提升55.56%(从0.055至0.085),数学推理任务GSM8K最高提升30.30%(从0.025至0.033) [26] - 80亿参数模型经过1万亿tokens训练后,在HumanEval+上提升11.36%(从0.268至0.299),MMLU提升5.20%(从0.592至0.623) [30][31] - 性能提升在需要推理能力的任务上尤为显著,包括代码生成、数学问题和多选常识问答 [27][31]
20分钟读懂AI史上最重要的一篇论文——《Attention Is All You Need》
虎嗅· 2025-10-22 21:05
行业技术发展 - Transformer架构于2017年通过论文《Attention Is All You Need》首次提出,彻底改变了人工智能的技术路径 [1] - 该架构推动了全球AI领域的“军备竞赛”,并催生了包括OpenAI在内的行业巨头迅速崛起 [1] 核心技术解析 - Transformer的核心思想源自注意力机制,涉及Q/K/V、多头注意力、位置编码以及Decoder的mask机制等关键概念 [1] - 该技术实现了从逐字生成文本的功能,其原理可通过基础数学概念理解 [1] 行业人才动态 - 提出Transformer架构的8位论文作者均已离开Google并投身创业 [1] - 这些创始人在创业过程中创造了惊人的财富传奇 [1]
速递|OpenAI 日本竞争对手 Sakana 正洽谈以 25 亿美元估值融资
Z Potentials· 2025-10-22 10:38
融资与估值 - 公司正以25亿美元估值洽谈1亿美元融资,若融资成功估值将达26亿美元,较一年前估值上涨66% [2] - 新融资计划用于扩充工程及销售分销团队,目前公司员工约70人 [2] - 公司此前股权融资累计达2.3亿美元,并获得日本政府专项补贴用于支付AI训练算力成本 [3] 技术与研发 - 公司AI研发技术与OpenAI、Anthropic及谷歌的技术路线存在差异,试图通过开发受自然界概念(如进化)启发的AI来挑战Transformer架构 [2][5] - 公司发布名为“进化 ShinkaEvolve”的开源软件,将LLMs与算法结合以提出多种问题解决方案并筛选最优选项,声称比传统Transformer更高效且在创造性解决方案方面表现更优 [7] 合作伙伴与市场定位 - 公司属于区域性AI开发者阵营,专注于开发能更精准把握当地语言文化特色的人工智能,战略与母国减少对中美AI技术依赖的诉求相契合 [2] - 公司已与日本数家大型金融机构达成AI开发合作协议,包括三菱UFJ金融集团和日本最大券商之一的大和证券集团 [2][7] - 公司投资方云集日本三大商业银行、科技巨头富士通和NEC、综合商社伊藤忠商事、电信运营商KDDI等日系巨头,以及美国风投机构NEA、科斯拉创投、Lux Capital和英伟达 [3] 竞争环境 - 公司面临来自美国AI开发商的竞争,这些企业正将日本作为全球扩张战略的一部分,例如OpenAI宣布与软银成立合资企业在日本独家销售其工具套件,并承诺每年投入30亿美元采购OpenAI技术 [3][4] - Anthropic在任命日本区负责人后正准备开设东京办事处,加拿大公司Cohere同样于8月聘请了日本区总经理 [4] 公司背景与目标 - 公司由前谷歌研究人员David Ha和Llion Jones于2023年创立,Llion Jones是原始Transformer模型架构研究论文的合著者 [4] - 首席执行官David Ha曾公开表示公司将在一年内实现盈利运营,并打算打造一个“日本的DeepMind” [2][4][7]
Karpathy泼冷水:AGI要等10年,根本没有「智能体元年」
36氪· 2025-10-21 10:15
AGI发展时间线 - 行业普遍鼓吹的“智能体元年”存在过度预测,更准确的描述应为“智能体的十年”[3][4] - 当前智能体仍处于非常初期的阶段,需要大约十年的持续研究工作才能让其真正可用[4][5] - 基于在AI行业约15年的经验和个人直觉,预测AGI的到来还需要10年时间[5][6][7] AI技术架构演进 - 预测未来10年AI的核心架构仍可能基于Transformer,但形态会有所演化[8] - 根据“时间平移不变性”,10年后仍将使用前向后向传播和梯度下降来训练巨大的神经网络,但所有组件都会变得更大[9][10] - 算法改进仅能将误差减半,进一步提升必须依靠更大的数据、更强的计算力和更优的软件系统,算法、数据、硬件与系统的进步缺一不可[12] 智能体现状与挑战 - 当前智能体存在智能不足、多模态能力弱、无法自主操作电脑等主要问题[4] - 智能体在认知上存在缺陷,缺乏持续学习能力,这些基础性问题的解决约需十年[5] - 在编码任务中,“手写+自动补全”是目前最佳选择,智能体擅长样板代码但处理“智力密集型代码”能力不足[13][15][16][17][18][20] 强化学习与模型训练 - 强化学习虽不完美,但相比过去仅模仿人的方法,仍是目前最优解[21][22] - 强化学习过程会产生大量噪声,且大语言模型充当评委时易被对抗性样本欺骗,存在泛化能力不足的问题[23][24] - 未来可能需要引入“元学习”或合成数据机制来改进模型评估,但目前尚无实验室在大规模通用环境下成功实现[26][27] 人工智能与人类学习对比 - 当前大模型仅通过预测下一个词学习,缺乏人类通过反思、讨论整合知识的“思考”过程[28] - 人类“不擅长记忆”是进化优势,迫使其学习可泛化模式,未来AI应减少机械记忆,更多依靠思考与探索[28][30] - 真正的智能不在于记忆更多,而在于理解与泛化,需要构建大模型压缩记忆工作,重点发展认知部分[30] AI对社会与工作的影响 - 通用人工智能被定义为能够以人类或更好的表现完成任何有经济价值任务的系统,但已从最初定义中移除了物理性任务[31] - 放射科医生和呼叫中心等工作未被完全自动化,因其涉及复杂工作场景,理想状态是AI完成80%工作量,人类监督完成剩余20%[32][33][34] - 更看重AI与人类的互补关系,而非替代关系,现实中许多工作比呼叫中心员工的工作复杂得多[35][36] 超级智能与社会自动化 - 超级智能被视为社会自动化进程的自然延伸,将出现越来越多从事数字工作和体力工作的自主实体[37] - AI驱动的自动化会显得“非常陌生和奇怪”,当世界在计算机集群上运行时,人类可能逐渐失去对正在发生的事情的控制和理解[37] - 从工业革命开始,递归式自我改进和智能爆炸已持续数百年,我们处于“智能爆炸”中已有几十年[37][38]
哈工大孟维康:让注意力有 “棱角”|Attention
36氪· 2025-10-20 15:58
Transformer架构的行业现状与挑战 - Transformer作为生成式AI的核心架构,几乎定义了整个行业的技术走向,其核心模块Self-Attention在视觉与语言模型领域几乎成为标配[1] - Self-Attention机制面临空间平方复杂度的挑战,这意味着昂贵的投入和巨大的能耗,导致模型训练陷入资源军备竞赛,令中小团队和企业望而却步[1] - 学界与产业界持续探索平衡效率与性能的方法,Linear Attention是代表性尝试,旨在通过核函数降低计算复杂度[1] Linear Attention的技术瓶颈 - Linear Attention通过核函数替代Softmax以降低复杂度,但存在两大硬伤:注意力分布变“平”(高熵)导致模型区分能力削弱,以及在精细细节或重要特征中丧失尖锐性[1] - 使用非负核函数近似Softmax时,所有负数信息被“截掉”,导致模型只能看到“正相关”而看不到“负相关”或“抑制关系”,使注意力图变得片面并影响表达力[2] PolaFormer的创新解决方案 - 针对高熵问题,研究提出通过设计一种新的核函数来降低权重分布的信息熵,要求映射函数一阶和二阶导数均大于0,从而重新缩放权重矩阵响应以降低熵[3] - 对于负值丢失问题,工作提出通过极性感知的计算方式,实现注意力权重矩阵所有元素平等地进行相似度计算,以不降低模型表现能力[3] - PolaFormer采用双支线极性建模与可学习幂函数的混合策略,将Query和Key向量拆成正负部分,并设计并行支线分别处理同号交互和异号交互[4] - 在Value向量侧也进行拆分并送入两条支路,引入两个可学习矩阵对支线结果进行加权调节并拼接,同时叠加可学习通道级幂函数使注意力分布更尖锐[6] PolaFormer的实验验证与应用前景 - 在目标检测、语义分割、图像分类和长序列基准等多种任务上的实验表明,Polarity-Aware Linear Attention可有效替代Vision Transformer中的Self-Attention模块,并显示出明显性能提升[7] - 研究背景源于产业界更在意模型部署效率,如在移动端或纯客户端上运行,而像LLaMA、qwen系列数十B规模的模型在资源受限情境下仍难落地[8] - 选择优化Linear Attention而非Sparse Attention的原因在于,后者在模型规模增大时性能不能很好维持,存在随机丢失信息的风险,而Linear Attention通过矩阵分解保证复杂度下降的同时不丢失全局信息[8][9] - 未来突破核心在于如何在保持表达力的同时将Attention做得更“轻量化”,尤其是在终端部署、算力受限场景和大模型训练中[29] - 算法与硬件协同设计是未来方向,长序列模型部署面临单卡GPU显存限制、通信开销等问题,需要共同解决部署瓶颈[30] - PolaFormer在长序列和高分辨率场景应用潜力大,如视频处理、大语言模型和高分辨率生成模型,在LLaMA长上下文设定上已显示出明显效率提升[31]
手撕大模型,KVCache 原理及代码解析
自动驾驶之心· 2025-10-20 14:30
KV Cache技术概述 - KV Cache是大型语言模型推理过程中的关键技术,通过缓存中间计算结果显著提升模型运行效率[1] - 该技术专门针对Transformer自回归推理场景,在文本生成等任务中发挥重要作用[1] KV Cache的工作原理 - 核心思想是缓存历史计算中的键(Key)和值(Value)矩阵,避免重复计算[4] - 生成新token时只需计算新的Q矩阵并与历史KV矩阵进行注意力计算[4][7] - 将时间复杂度从O(n²)降低到O(n),极大提升长序列生成效率[4][7] - 首次生成时计算并缓存所有输入token的K和V矩阵,后续生成只需计算新token的查询矩阵[7] KV Cache的技术实现细节 - 为每个注意力头维护独立缓存,结构为[batch_size, num_heads, seq_len, head_dim][11] - 缓存会随着生成过程动态增长,直到达到模型最大序列长度限制[11] - 采用滑动窗口机制处理超长序列,如Llama 2只保留最近N个token的KV缓存以控制内存占用[12] - 需要权衡最大缓存长度、批量大小和精度选择等参数[15] 内存与性能权衡 - KV Cache提升速度但需要额外内存存储缓存数据[11] - 以GPT-3 175B模型为例,每个token的KV缓存约占用20KB内存[12] - 生成1000个token时单个样本需要约20MB内存,批量处理时内存消耗线性增加[12] 代码实现机制 - 通过维护cache_k和cache_v变量实现历史KV值的存储和更新[14] - 使用缓存时会将新计算的K、V与历史缓存进行拼接[14] - 提供reset_cache方法用于新序列生成时重置缓存状态[14] 优化策略 - 分页KV Cache借鉴内存分页机制,将连续缓存分割成固定大小块提高内存利用率[22] - 动态缓存管理根据输入序列长度动态调整缓存大小[22] - 量化缓存使用INT8或INT4等低精度格式存储,大幅减少内存占用[22] - 选择性缓存对不重要层或注意力头不进行缓存,平衡速度和内存[22]
浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破
AI科技大本营· 2025-10-14 16:17
核心技术突破 - 浙江大学与新加坡国立大学联合提出新型深度神经网络基础操作Translution 旨在融合Self-Attention的自适应建模优势与Convolution的相对位置建模能力 [1] - Translution的核心思想是将卷积操作中的固定权重核转变为由自注意力机制动态生成的自适应核 从而灵活捕获与数据本身内在结构相关且与绝对位置无关的表征 [5] - 该技术实现了Self-attention和Convolution两种操作的统一 被描述为合二为一的性能怪兽 [8] 性能表现 - 基于Translution构建的神经网络在ViT和GPT两大主流架构下均获得性能提升 展现出广阔应用前景 [3] - 在ImageNet数据集上 基于Translution构建的ViT取得明显优于Self-attention的效果 [4] - 在自然语言建模任务中 基于Translution构建的GPT模型在不同参数规模下均超越Self-attention 例如GPT-A-160架构下困惑度从60.40降至56.26 [4] 行业背景与影响 - 当前基于Self-Attention的Transformer是深度学习主流架构 但其Scaling Law红利正逐渐触顶 单纯增加参数和训练数据难以带来性能提升 [5] - Translution是对上述行业挑战的有力回应 被视为探索新型神经网络以持续推动深度学习繁荣的重要尝试 [5] - 该技术对算力特别是GPU显存提出更高要求 可能进一步加剧人工智能领域的资源差距 [6]
Flash Attention作者最新播客:英伟达GPU统治三年内将终结
量子位· 2025-09-29 12:57
英伟达市场地位与竞争格局 - 英伟达当前在AI芯片市场占据约90%主导地位,主要优势在于芯片设计、软件生态及网络通信技术[9][10] - AMD在推理端具备内存容量优势,但在训练端因网络通信瓶颈仍落后于英伟达[10] - 未来2-3年内AI硬件格局将转向多元化,专用芯片厂商如Cerebras、Grok、SambaNova将针对不同工作负载实现差异化竞争[23][24] AI芯片技术发展趋势 - 芯片设计将更适配Transformer、MoE等特定架构,工作负载集中化使专用芯片开发更易实现[10] - 稀疏计算(如MoE架构)增加芯片设计复杂度,需应对内存访问模式变化[13][14] - 硬件需支持三类工作负载:低延迟智能体系统(毫秒级响应)、高吞吐批量处理(海量数据生成)、交互式聊天机器人[24][96][111] 推理成本优化与技术突破 - 近三年推理成本下降约100倍,未来有望再降低10倍[73][90] - 量化技术推动参数表示从16位降至4位,GPT-oss模型1200亿参数仅需60GB存储空间[82][83] - 架构优化如Flash Attention减少内存访问,DeepSeek的multi-head latent attention压缩KV缓存规模[84] - MoE架构显著提升稀疏度,从Mistral的8专家激活2个(25%)演进至GPT-oss的128专家激活4个(1/32)[86][87] 模型架构演进方向 - Transformer仍是基础架构,但MoE、状态空间模型(如Mamba)等创新持续涌现[13][94][132] - 混合架构(Transformer+Mamba)在降低成本的同时提升推理性能[132] - 架构设计趋向"推理优先",以最大化每浮点操作的推理效率[131][133] AI工作负载分类与优化 - 三类核心工作负载形成:传统聊天机器人(中等延迟)、极低延迟场景(代码辅助等)、大规模批处理(合成数据生成)[96][111] - 低延迟场景用户愿支付更高成本,高吞吐场景注重批量折扣(如OpenAI批量API提供50%折扣)[24][110] - 代理型工作负载成为新焦点,需整合Web搜索、工具调用等外部能力[20][115] 开发工具与抽象层进展 - Triton成为跨芯片抽象层关键,支持英伟达、AMD、Intel GPU,但需牺牲约5%性能换取开发效率提升[38][40][41] - Mojo、Gluon等领域专用语言快速迭代,解决GPU内核开发痛点[45][50][52] - AI辅助编程工具(如Claude Code)提升开发效率约1.5倍,但全自动内核生成仍处早期阶段[56][67][68] 新兴应用场景与市场机会 - 实时视频生成成为消费端趋势,代表企业包括Pika Labs、Hetra[117][118] - 机器人领域存在重大机遇,需解决多分辨率数据处理与现实世界交互数据缺失问题[135][137][138] - 合成数据市场被低估,在航空、金融等专业领域具有经济价值[99][102][148] 学术与产业协同创新 - 基础突破多源于学术界(如Attention机制、Adam优化器、LayerNorm),产业界负责商业化落地[143][144][145] - 学术探索周期长(2-3年),产业执行速度快(周/月级),形成互补创新模式[140][145] - 政府资金支持早期探索(5-10%成功率),风险投资推动规模化应用[142][146]