Transformer
搜索文档
20分钟读懂AI史上最重要的一篇论文——《Attention Is All You Need》
虎嗅· 2025-10-22 21:05
行业技术发展 - Transformer架构于2017年通过论文《Attention Is All You Need》首次提出,彻底改变了人工智能的技术路径 [1] - 该架构推动了全球AI领域的“军备竞赛”,并催生了包括OpenAI在内的行业巨头迅速崛起 [1] 核心技术解析 - Transformer的核心思想源自注意力机制,涉及Q/K/V、多头注意力、位置编码以及Decoder的mask机制等关键概念 [1] - 该技术实现了从逐字生成文本的功能,其原理可通过基础数学概念理解 [1] 行业人才动态 - 提出Transformer架构的8位论文作者均已离开Google并投身创业 [1] - 这些创始人在创业过程中创造了惊人的财富传奇 [1]
速递|OpenAI 日本竞争对手 Sakana 正洽谈以 25 亿美元估值融资
Z Potentials· 2025-10-22 10:38
融资与估值 - 公司正以25亿美元估值洽谈1亿美元融资,若融资成功估值将达26亿美元,较一年前估值上涨66% [2] - 新融资计划用于扩充工程及销售分销团队,目前公司员工约70人 [2] - 公司此前股权融资累计达2.3亿美元,并获得日本政府专项补贴用于支付AI训练算力成本 [3] 技术与研发 - 公司AI研发技术与OpenAI、Anthropic及谷歌的技术路线存在差异,试图通过开发受自然界概念(如进化)启发的AI来挑战Transformer架构 [2][5] - 公司发布名为“进化 ShinkaEvolve”的开源软件,将LLMs与算法结合以提出多种问题解决方案并筛选最优选项,声称比传统Transformer更高效且在创造性解决方案方面表现更优 [7] 合作伙伴与市场定位 - 公司属于区域性AI开发者阵营,专注于开发能更精准把握当地语言文化特色的人工智能,战略与母国减少对中美AI技术依赖的诉求相契合 [2] - 公司已与日本数家大型金融机构达成AI开发合作协议,包括三菱UFJ金融集团和日本最大券商之一的大和证券集团 [2][7] - 公司投资方云集日本三大商业银行、科技巨头富士通和NEC、综合商社伊藤忠商事、电信运营商KDDI等日系巨头,以及美国风投机构NEA、科斯拉创投、Lux Capital和英伟达 [3] 竞争环境 - 公司面临来自美国AI开发商的竞争,这些企业正将日本作为全球扩张战略的一部分,例如OpenAI宣布与软银成立合资企业在日本独家销售其工具套件,并承诺每年投入30亿美元采购OpenAI技术 [3][4] - Anthropic在任命日本区负责人后正准备开设东京办事处,加拿大公司Cohere同样于8月聘请了日本区总经理 [4] 公司背景与目标 - 公司由前谷歌研究人员David Ha和Llion Jones于2023年创立,Llion Jones是原始Transformer模型架构研究论文的合著者 [4] - 首席执行官David Ha曾公开表示公司将在一年内实现盈利运营,并打算打造一个“日本的DeepMind” [2][4][7]
Karpathy泼冷水:AGI要等10年,根本没有「智能体元年」
36氪· 2025-10-21 10:15
AGI发展时间线 - 行业普遍鼓吹的“智能体元年”存在过度预测,更准确的描述应为“智能体的十年”[3][4] - 当前智能体仍处于非常初期的阶段,需要大约十年的持续研究工作才能让其真正可用[4][5] - 基于在AI行业约15年的经验和个人直觉,预测AGI的到来还需要10年时间[5][6][7] AI技术架构演进 - 预测未来10年AI的核心架构仍可能基于Transformer,但形态会有所演化[8] - 根据“时间平移不变性”,10年后仍将使用前向后向传播和梯度下降来训练巨大的神经网络,但所有组件都会变得更大[9][10] - 算法改进仅能将误差减半,进一步提升必须依靠更大的数据、更强的计算力和更优的软件系统,算法、数据、硬件与系统的进步缺一不可[12] 智能体现状与挑战 - 当前智能体存在智能不足、多模态能力弱、无法自主操作电脑等主要问题[4] - 智能体在认知上存在缺陷,缺乏持续学习能力,这些基础性问题的解决约需十年[5] - 在编码任务中,“手写+自动补全”是目前最佳选择,智能体擅长样板代码但处理“智力密集型代码”能力不足[13][15][16][17][18][20] 强化学习与模型训练 - 强化学习虽不完美,但相比过去仅模仿人的方法,仍是目前最优解[21][22] - 强化学习过程会产生大量噪声,且大语言模型充当评委时易被对抗性样本欺骗,存在泛化能力不足的问题[23][24] - 未来可能需要引入“元学习”或合成数据机制来改进模型评估,但目前尚无实验室在大规模通用环境下成功实现[26][27] 人工智能与人类学习对比 - 当前大模型仅通过预测下一个词学习,缺乏人类通过反思、讨论整合知识的“思考”过程[28] - 人类“不擅长记忆”是进化优势,迫使其学习可泛化模式,未来AI应减少机械记忆,更多依靠思考与探索[28][30] - 真正的智能不在于记忆更多,而在于理解与泛化,需要构建大模型压缩记忆工作,重点发展认知部分[30] AI对社会与工作的影响 - 通用人工智能被定义为能够以人类或更好的表现完成任何有经济价值任务的系统,但已从最初定义中移除了物理性任务[31] - 放射科医生和呼叫中心等工作未被完全自动化,因其涉及复杂工作场景,理想状态是AI完成80%工作量,人类监督完成剩余20%[32][33][34] - 更看重AI与人类的互补关系,而非替代关系,现实中许多工作比呼叫中心员工的工作复杂得多[35][36] 超级智能与社会自动化 - 超级智能被视为社会自动化进程的自然延伸,将出现越来越多从事数字工作和体力工作的自主实体[37] - AI驱动的自动化会显得“非常陌生和奇怪”,当世界在计算机集群上运行时,人类可能逐渐失去对正在发生的事情的控制和理解[37] - 从工业革命开始,递归式自我改进和智能爆炸已持续数百年,我们处于“智能爆炸”中已有几十年[37][38]
哈工大孟维康:让注意力有 “棱角”|Attention
36氪· 2025-10-20 15:58
Transformer架构的行业现状与挑战 - Transformer作为生成式AI的核心架构,几乎定义了整个行业的技术走向,其核心模块Self-Attention在视觉与语言模型领域几乎成为标配[1] - Self-Attention机制面临空间平方复杂度的挑战,这意味着昂贵的投入和巨大的能耗,导致模型训练陷入资源军备竞赛,令中小团队和企业望而却步[1] - 学界与产业界持续探索平衡效率与性能的方法,Linear Attention是代表性尝试,旨在通过核函数降低计算复杂度[1] Linear Attention的技术瓶颈 - Linear Attention通过核函数替代Softmax以降低复杂度,但存在两大硬伤:注意力分布变“平”(高熵)导致模型区分能力削弱,以及在精细细节或重要特征中丧失尖锐性[1] - 使用非负核函数近似Softmax时,所有负数信息被“截掉”,导致模型只能看到“正相关”而看不到“负相关”或“抑制关系”,使注意力图变得片面并影响表达力[2] PolaFormer的创新解决方案 - 针对高熵问题,研究提出通过设计一种新的核函数来降低权重分布的信息熵,要求映射函数一阶和二阶导数均大于0,从而重新缩放权重矩阵响应以降低熵[3] - 对于负值丢失问题,工作提出通过极性感知的计算方式,实现注意力权重矩阵所有元素平等地进行相似度计算,以不降低模型表现能力[3] - PolaFormer采用双支线极性建模与可学习幂函数的混合策略,将Query和Key向量拆成正负部分,并设计并行支线分别处理同号交互和异号交互[4] - 在Value向量侧也进行拆分并送入两条支路,引入两个可学习矩阵对支线结果进行加权调节并拼接,同时叠加可学习通道级幂函数使注意力分布更尖锐[6] PolaFormer的实验验证与应用前景 - 在目标检测、语义分割、图像分类和长序列基准等多种任务上的实验表明,Polarity-Aware Linear Attention可有效替代Vision Transformer中的Self-Attention模块,并显示出明显性能提升[7] - 研究背景源于产业界更在意模型部署效率,如在移动端或纯客户端上运行,而像LLaMA、qwen系列数十B规模的模型在资源受限情境下仍难落地[8] - 选择优化Linear Attention而非Sparse Attention的原因在于,后者在模型规模增大时性能不能很好维持,存在随机丢失信息的风险,而Linear Attention通过矩阵分解保证复杂度下降的同时不丢失全局信息[8][9] - 未来突破核心在于如何在保持表达力的同时将Attention做得更“轻量化”,尤其是在终端部署、算力受限场景和大模型训练中[29] - 算法与硬件协同设计是未来方向,长序列模型部署面临单卡GPU显存限制、通信开销等问题,需要共同解决部署瓶颈[30] - PolaFormer在长序列和高分辨率场景应用潜力大,如视频处理、大语言模型和高分辨率生成模型,在LLaMA长上下文设定上已显示出明显效率提升[31]
手撕大模型,KVCache 原理及代码解析
自动驾驶之心· 2025-10-20 14:30
KV Cache技术概述 - KV Cache是大型语言模型推理过程中的关键技术,通过缓存中间计算结果显著提升模型运行效率[1] - 该技术专门针对Transformer自回归推理场景,在文本生成等任务中发挥重要作用[1] KV Cache的工作原理 - 核心思想是缓存历史计算中的键(Key)和值(Value)矩阵,避免重复计算[4] - 生成新token时只需计算新的Q矩阵并与历史KV矩阵进行注意力计算[4][7] - 将时间复杂度从O(n²)降低到O(n),极大提升长序列生成效率[4][7] - 首次生成时计算并缓存所有输入token的K和V矩阵,后续生成只需计算新token的查询矩阵[7] KV Cache的技术实现细节 - 为每个注意力头维护独立缓存,结构为[batch_size, num_heads, seq_len, head_dim][11] - 缓存会随着生成过程动态增长,直到达到模型最大序列长度限制[11] - 采用滑动窗口机制处理超长序列,如Llama 2只保留最近N个token的KV缓存以控制内存占用[12] - 需要权衡最大缓存长度、批量大小和精度选择等参数[15] 内存与性能权衡 - KV Cache提升速度但需要额外内存存储缓存数据[11] - 以GPT-3 175B模型为例,每个token的KV缓存约占用20KB内存[12] - 生成1000个token时单个样本需要约20MB内存,批量处理时内存消耗线性增加[12] 代码实现机制 - 通过维护cache_k和cache_v变量实现历史KV值的存储和更新[14] - 使用缓存时会将新计算的K、V与历史缓存进行拼接[14] - 提供reset_cache方法用于新序列生成时重置缓存状态[14] 优化策略 - 分页KV Cache借鉴内存分页机制,将连续缓存分割成固定大小块提高内存利用率[22] - 动态缓存管理根据输入序列长度动态调整缓存大小[22] - 量化缓存使用INT8或INT4等低精度格式存储,大幅减少内存占用[22] - 选择性缓存对不重要层或注意力头不进行缓存,平衡速度和内存[22]
浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破
AI科技大本营· 2025-10-14 16:17
核心技术突破 - 浙江大学与新加坡国立大学联合提出新型深度神经网络基础操作Translution 旨在融合Self-Attention的自适应建模优势与Convolution的相对位置建模能力 [1] - Translution的核心思想是将卷积操作中的固定权重核转变为由自注意力机制动态生成的自适应核 从而灵活捕获与数据本身内在结构相关且与绝对位置无关的表征 [5] - 该技术实现了Self-attention和Convolution两种操作的统一 被描述为合二为一的性能怪兽 [8] 性能表现 - 基于Translution构建的神经网络在ViT和GPT两大主流架构下均获得性能提升 展现出广阔应用前景 [3] - 在ImageNet数据集上 基于Translution构建的ViT取得明显优于Self-attention的效果 [4] - 在自然语言建模任务中 基于Translution构建的GPT模型在不同参数规模下均超越Self-attention 例如GPT-A-160架构下困惑度从60.40降至56.26 [4] 行业背景与影响 - 当前基于Self-Attention的Transformer是深度学习主流架构 但其Scaling Law红利正逐渐触顶 单纯增加参数和训练数据难以带来性能提升 [5] - Translution是对上述行业挑战的有力回应 被视为探索新型神经网络以持续推动深度学习繁荣的重要尝试 [5] - 该技术对算力特别是GPU显存提出更高要求 可能进一步加剧人工智能领域的资源差距 [6]
Flash Attention作者最新播客:英伟达GPU统治三年内将终结
量子位· 2025-09-29 12:57
英伟达市场地位与竞争格局 - 英伟达当前在AI芯片市场占据约90%主导地位,主要优势在于芯片设计、软件生态及网络通信技术[9][10] - AMD在推理端具备内存容量优势,但在训练端因网络通信瓶颈仍落后于英伟达[10] - 未来2-3年内AI硬件格局将转向多元化,专用芯片厂商如Cerebras、Grok、SambaNova将针对不同工作负载实现差异化竞争[23][24] AI芯片技术发展趋势 - 芯片设计将更适配Transformer、MoE等特定架构,工作负载集中化使专用芯片开发更易实现[10] - 稀疏计算(如MoE架构)增加芯片设计复杂度,需应对内存访问模式变化[13][14] - 硬件需支持三类工作负载:低延迟智能体系统(毫秒级响应)、高吞吐批量处理(海量数据生成)、交互式聊天机器人[24][96][111] 推理成本优化与技术突破 - 近三年推理成本下降约100倍,未来有望再降低10倍[73][90] - 量化技术推动参数表示从16位降至4位,GPT-oss模型1200亿参数仅需60GB存储空间[82][83] - 架构优化如Flash Attention减少内存访问,DeepSeek的multi-head latent attention压缩KV缓存规模[84] - MoE架构显著提升稀疏度,从Mistral的8专家激活2个(25%)演进至GPT-oss的128专家激活4个(1/32)[86][87] 模型架构演进方向 - Transformer仍是基础架构,但MoE、状态空间模型(如Mamba)等创新持续涌现[13][94][132] - 混合架构(Transformer+Mamba)在降低成本的同时提升推理性能[132] - 架构设计趋向"推理优先",以最大化每浮点操作的推理效率[131][133] AI工作负载分类与优化 - 三类核心工作负载形成:传统聊天机器人(中等延迟)、极低延迟场景(代码辅助等)、大规模批处理(合成数据生成)[96][111] - 低延迟场景用户愿支付更高成本,高吞吐场景注重批量折扣(如OpenAI批量API提供50%折扣)[24][110] - 代理型工作负载成为新焦点,需整合Web搜索、工具调用等外部能力[20][115] 开发工具与抽象层进展 - Triton成为跨芯片抽象层关键,支持英伟达、AMD、Intel GPU,但需牺牲约5%性能换取开发效率提升[38][40][41] - Mojo、Gluon等领域专用语言快速迭代,解决GPU内核开发痛点[45][50][52] - AI辅助编程工具(如Claude Code)提升开发效率约1.5倍,但全自动内核生成仍处早期阶段[56][67][68] 新兴应用场景与市场机会 - 实时视频生成成为消费端趋势,代表企业包括Pika Labs、Hetra[117][118] - 机器人领域存在重大机遇,需解决多分辨率数据处理与现实世界交互数据缺失问题[135][137][138] - 合成数据市场被低估,在航空、金融等专业领域具有经济价值[99][102][148] 学术与产业协同创新 - 基础突破多源于学术界(如Attention机制、Adam优化器、LayerNorm),产业界负责商业化落地[143][144][145] - 学术探索周期长(2-3年),产业执行速度快(周/月级),形成互补创新模式[140][145] - 政府资金支持早期探索(5-10%成功率),风险投资推动规模化应用[142][146]
谢赛宁回忆七年前OpenAI面试:白板编程、五小时会议,面完天都黑了
机器之心· 2025-08-29 17:53
AI大厂面试特点分析 - Meta研究者Lucas Beyer发起关于AI大厂面试体验的投票 选项包括Google/Meta/MS、OpenAI/Anthropic、xAI和Old DeepMind [1] - 投票结果显示Old DeepMind以32.1%的得票率被评为最佳面试体验 [20] 顶尖研究人员职业轨迹 - Lucas Beyer拥有超过94,000次学术引用 h-index达40 2020年以来引用量达93,147次 [2][4] - 2024年6月与Alexander Kolesnikov和Xiaohua Zhai三位研究者共同从OpenAI转入Meta [2] 各公司面试模式比较 - Old DeepMind采用两小时高强度面试 包含100多个数学统计和机器学习问题 [6] - Meta FAIR面试侧重学术讨论和编码 曾由Piotr Dollar、Ross Girshick和何恺明担任面试官 [6] - Google面试采用"教职面试"模式 包含编程题和研究讨论 知名AI学者Noam Shazeer曾参与面试 [7] - OpenAI面试采用5小时白板编程和研究报告形式 由联合创始人John Schulman亲自设计强化学习问题 [7] 面试过程典型案例 - 谢赛宁在OpenAI面试时讨论强化学习中的方差崩溃问题 尽管当时对该领域了解有限但仍需现场研究解决 [7] - Omar Shams回忆DeepMind面试涵盖代码数学统计和机器学习 面试官Jacob Menick给予满分评价 [12] - Rishabh Agarwal被Christian Szegedy面试时 需解决概率分布相关的飞镖游戏问题 并在餐巾纸上完成数学计算 [18] - Felipe Mello在谷歌面试中被要求编写单元测试并分享最难解决的bug [14] - Ashwinee Panda在xAI联合创始人张国栋的面试中获得研究灵感 最终扩展为正式研究成果 [16] 行业人才流动趋势 - 知名研究人员频繁在顶级AI机构间流动 包括OpenAI、DeepMind、谷歌大脑和Meta等 [2][6] - 行业顶尖人才如Ross Girshick(超过60万引用)和何恺明已从企业转向学术或创业领域 [6]
新一轮智驾PK,迈入实战时刻
虎嗅· 2025-08-27 18:38
新一轮智驾技术竞赛背景 - 中国头部智驾公司近期集中落地最新智驾能力 包括理想汽车推送VLA司机大模型 Momenta与智己合作R6飞轮大模型 元戎启行发布VLA大模型 小鹏发布全新VLA大模型 华为计划9月推送ADS 4系统 [2][5] - 行业动作集中源于四大驱动力:监管加强推迟部分公司节奏 AI底层创新突破时间相近 技术适配需要固定训练周期 公司担心竞品抢先选择先发布基础版再优化策略 [3][6] VLA模型技术突破 - VLA模型相比传统端到端模型取消感知/定位/预测/规划等独立环节 实现从传感器到控制端的单一完整模型架构 [7] - 模型底层技术从CNN升级为Transformer 显著提升对人类大脑模仿学习能力 [8] - VLA模型具备思维链(CoT)能力 通过语言媒介模仿人类驾驶思考 将决策分解为连贯推理步骤 [9] - 相比VLM模型 VLA在输入输出和应用层面更贴合智驾需求 输入包含图像/文本/历史状态 输出为可执行动作 应用领域涵盖机器人控制和自动驾驶 [9] VLA模型核心优势 - 增强决策逻辑性:面对校车/儿童等复杂路况时能分步推理 显著提升可靠性及安全性 [11] - 提升系统可解释性:以人类可理解语言展现决策依据 助力研发调试与事故追溯 [11] - 强化泛化能力:通过海量数据学习推理逻辑 实现应对未知新场景的能力 [11] - 实际测试显示防御性驾驶能力突出 在立交桥辅道主动降速至安全范围 在视线遮挡路口预判电瓶车风险主动降速 在丁字路口提前分析并缓速汇流 [12][14][15][16] 技术应用体验升级 - 驾驶体验实现综合性飞跃 包括更顺滑控车/更果断反应/全程安全感提升 极端场景仍需人工接管但信任感显著增强 [17] - 支持语音指令交互 可响应"加速/减速"等基础操作 并能直接读取交通标识文字执行优化驾驶 [17] 行业发展趋势 - VLA模型当前尚未完全实现思维链能力 自评仅达6分(满分10分) 需持续收集测试数据并优化后训练 [18][19] - 成本差异主要集中于芯片 15万元以上车型可适配 10万元级别车型经优化也有搭载可能 [20] - 智驾芯片将加强Transformer支持 重点优化FP4/FP6精度算力 [21] - 车企自研辅助驾驶系统需经历规则算法/端到端1.0/VLA的完整技术演进过程 无法完全跳过特定阶段 [21]
DiT突遭怒喷,谢赛宁淡定回应
量子位· 2025-08-20 15:48
文章核心观点 - DiT(Diffusion Transformers)作为扩散模型领域的核心架构受到质疑,但原作者谢赛宁强调科学验证的重要性并回应质疑,同时指出DiT的技术优势及改进方向 [4][5][6][9][27][29][32] DiT的技术地位与影响 - DiT将Transformer与扩散模型融合,在计算效率和生成效果上超越基于U-Net的经典模型ADM和LDM,并将Transformer扩展到图像视频领域 [9] - 若DiT存在根本性错误,大量依赖DiT的生成模型可能需重新评估,对整个领域产生重大影响 [10] 质疑者的核心论点 - 质疑依据来源于论文《TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training》,提出Tread策略可将早期层token传递至更深层,无需修改架构或引入额外参数 [12][13][14] - DiT架构可能隐含特性导致FID迅速降低,Tread模型比DiT在40万次训练迭代快14倍,在700万次迭代时快37倍 [15][16] - 质疑者认为大幅性能提升可能否定原有方法,并批评训练中禁用部分网络的做法 [17][19] - 指出DiT后置层归一化可能导致动态范围输出问题,需使用对数尺度处理信噪比差异 [23] - 质疑DiT的条件处理仅通过普通MLP流程,未体现Transformer特性 [25][26] 谢赛宁的回应与技术说明 - 强调Tread策略与"DiT是错的"无直接关联,认为Tread类似随机深度,通过正则化提升特征稳健性 [27][28] - 推荐使用经过验证的Lightning DiT版本(含swiglu、rmsnorm、rope等技术),并指出后置层归一化目前无证据表明存在问题 [29][30] - 提出DiT的核心改进集中于内部表征学习,包括REPA方法、tokenizer修正、语义token拼接、解耦架构及正则化方法 [32] - 训练中采用随机插值/流分配提升效果,SiT作为基准评估方法,时间嵌入需使用adaln-zero并共享参数以避免浪费30%参数 [33] - 指出sd-vae是DiT当前症结,处理256×256分辨率图像需445.87 GFlops且非端到端架构,va-vae和repa-e仅能部分解决问题 [34]