Workflow
Transformer
icon
搜索文档
Transformer死角,只需500步后训练,循环模型突破256k长度泛化极限
机器之心· 2025-07-08 12:09
循环模型与Transformer对比 - 线性循环模型(如Mamba)和线性注意力机制能处理极长序列,这是其相较于Transformer的关键优势,后者受限于二次计算复杂度和有限上下文窗口[1][2] - 过去循环模型在短序列任务中性能不如Transformer,但近期架构突破使其性能显著提升,已在音频建模、代码补全等工业场景中应用[3] 循环模型的长度泛化问题 - 循环模型在训练长度范围内表现良好,但超出训练长度时泛化能力明显下降,例如Mamba-2在超出训练范围的序列位置困惑度急剧恶化[4][5] - 现有循环模型在长序列和短序列两个维度均未显现明显优势,处于效率与性能的双重瓶颈[6] 长度泛化解决方案 - 通过500步后训练(占预训练预算0.1%)可使循环模型在256k长度序列实现泛化,证明其潜力未被充分释放[7] - 提出"未探索状态假说":循环模型失败主因是训练时未接触长序列递推产生的状态分布,导致对未知状态处理能力不足[13][14][15] - 四种初始状态干预方法:随机噪声、拟合噪声、状态传递(SP)、TBTT,其中SP与TBTT效果最佳,仅需原始预训练预算0.02%即可实现泛化[19][20][23][24] 干预方法的效果验证 - 在370M参数模型中,拟合噪声干预有效但随机噪声无效;1.3B大模型因状态依赖复杂,需更高级干预手段[25][26] - 干预措施能稳定状态范数增长,提升模型输出稳定性[27] - 在BABILong、密码检索、合成复制三项长上下文任务中,干预后模型表现显著提升,780M模型可完美解决256k序列密码检索任务[31][32][33][35][36][38][39] 上下文处理机制优化 - 提出"有效记忆(EffRem)"指标量化模型对历史token的依赖程度,发现未干预模型对早期token存在不合理依赖[44][45][46][48][49][50] - 状态传递干预后,模型有效记忆曲线呈现理想梯度,优先关注最近上下文,符合自然语言处理需求[51][52]
Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术
量子位· 2025-07-07 17:35
技术突破 - Meta开发出新架构2-Simplicial Transformer,通过修改标准注意力机制,使Transformer能更高效利用训练数据,突破大模型发展的数据瓶颈[2] - 核心方法基于OpenAI提出的Triton,将标准点积注意力推广到三线性函数[3] - 在同等参数量和数据量下,新架构在数学、编程、推理等任务上表现优于传统Transformer,且缩放指数更高,意味着随着参数增加性能提升更快[4] 技术细节 - 新架构将点积注意力从二元线性操作扩展到三元线性操作,引入第三个向量K'增加模型对复杂模式的表达能力[6][7] - 通过三元线性函数计算注意力,公式为$$A_{i j k}^{(2\mathrm{s})}=\frac{\langle\mathbf{q}_{i},\mathbf{k}_{j},\mathbf{k}_{k}^{\prime}\rangle}{\sqrt{d}}=\frac{1}{\sqrt{d}}\sum_{l=1}^{d}Q_{i l}K_{j l}K_{k l}^{\prime},$$[9] - 使用OpenAI的Triton框架实现核心运算,达到520TFLOPS性能[11][12] - 引入滑动窗口机制降低计算成本同时保持性能[14] 实验结果 - 测试模型规模从活跃参数10亿/总参数570亿到活跃参数35亿/总参数1760亿不等[16] - 在小模型(1B)上改进有限,但在较大模型上表现显著优于传统Transformer[18][19] - 2-Simplicial Transformer的缩放指数α比传统Transformer高18.5%(GSM8k)、8.5%(MMLU)、20.2%(MMLU-pro)、6.8%(MBPP)[21] 行业影响 - Meta不仅挖走OpenAI员工,还成功应用OpenAI的技术实现新突破[27] - 新架构引发行业讨论,同时为OpenAI的Triton技术做了宣传[23][26]
deepseek技术解读(3)-MoE的演进之路
自动驾驶之心· 2025-07-06 16:44
DeepSeek MoE技术演进 - 核心观点:DeepSeek在MoE架构上持续创新,从V1到V3版本通过细粒度专家分割、共享专家隔离、负载均衡优化等技术手段提升模型性能 [15][16][36] MoE基础架构 - MoE包含三部分:专家网络(前馈网络)、门控网络(计算专家权重)、选择器(TopK策略) [7] - Google提出的Transformer MoE层设计:用MoE替换FFN层,通过门控值加权多个专家输出 [5] - 负载均衡辅助损失解决专家间token分配不均问题,防止少数专家过载 [6][8] DeepSeek V1创新 - 细粒度专家分割:分割FFN隐藏维度增加专家数量,提升知识分解精度 [16] - 共享专家隔离:设置常激活专家捕获共同知识,减少其他专家冗余 [16] - 双层级负载均衡:专家级(公式12-14)和设备级(公式15-17)负载loss [19][23] DeepSeek V2升级 - 设备受限路由机制:限制每个token的激活专家分布在≤3台设备,降低通信成本 [28] - 通信负载均衡loss:公式29-31确保设备间输入输出负载均衡 [30][32] - Token丢弃策略:超过设备容量的低权重token跳过计算,通过残差传递 [33][34] DeepSeek V3改进 - 门控函数升级:用Sigmoid替代Softmax,解决高维度专家(256个)权重区分度问题 [36][38][39] - 精简辅助损失:通过动态bias替代多层级负载loss,减少对主模型干扰 [40][41] - 序列级均衡loss:公式17-19在单样本粒度平衡专家分配 [42][43] 技术演进总结 - V1:建立共享专家+细粒度专家框架,引入双层级负载均衡 [44] - V2:优化通信效率,新增设备路由限制和通信均衡机制 [44] - V3:门控函数革新,负载均衡策略简化,支持更大规模专家 [44]
原来Scaling Law还能被优化?Meta这招省token又提效
机器之心· 2025-07-06 11:49
Transformer架构演进 - 2017年《Attention Is All You Need》论文提出Transformer架构,现引用量接近19万次,成为AI领域基础范式[1][2] - Transformer核心改进方向包括Multi-Token Attention和Multi-matrix Factorization Attention等新型注意力机制[2] - Meta最新研究提出旋转不变型三线性注意力机制,性能可改变Scaling Law系数[4] 2-simplicial Transformer技术突破 - 2-simplicial Transformer源自2019年研究,将点积注意力扩展为三线性形式[7][19] - 新型注意力机制通过三线性积构建三阶张量,计算复杂度为O(n^3)[22][23][35] - Meta采用滑动窗口参数化(O(n×w1×w2))降低计算负担,最优配置为w1=512,w2=32[32][37] Scaling Law理论框架 - 神经Scaling Law公式:L(N,D)=E+A/N^α+B/D^β,其中E为不可约损失[13][14] - Hoffmann等(2022)实验得出a≈0.49,b≈0.5,表明token数量需与模型规模同步扩展[15][17] - 2-simplicial Transformer展示更优参数扩展指数,token增长可慢于参数增长[10][50] 实验性能对比 - 在1B参数模型中,2-simplicial注意力使GSM8k和MBPP任务分别提升0.79%和0.88%[43] - 参数规模超过2B后,2-simplicial注意力优势减弱,3.5B模型在MMLU-pro任务下降2.15%[43][45] - 2-simplicial注意力斜率α更陡峭,显示其Scaling Law指数优于传统Transformer[49][50] 计算优化实现 - Meta使用Triton实现新型注意力机制,采用分组查询注意力(GQA)比率64提升计算效率[38] - 对比标准点积注意力(复杂度2n^2),窗口化2-simplicial注意力复杂度为6πw1w2[33][35] - 引入在线softmax等核优化技术,延迟最优配置达55.1ms(16k窗口)[32][39]
ICML 2025 | 打破残差连接瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化!
机器之心· 2025-06-27 16:06
核心观点 - 彩云科技与北京邮电大学联合提出多路动态稠密连接(MUDD)作为残差连接的替代方案,显著提升Transformer跨层信息传递效率 [1][7] - MUDD连接仅增加0.23%参数量和0.4%计算量,使2.8B参数模型性能媲美6.9B(2.4倍)和12B(4.2倍)参数模型 [4] - 该技术已被ICML 2025接收,是继DCFormer后又一底层架构创新 [5] 背景 - 当前Transformer残差连接存在深层隐状态表征坍塌和残差流信息过载两大局限 [7][8] - 表征坍塌导致深层模型边际效应递减,相邻层隐状态高度相似 [8] - 残差流作为多层通信总线易因多路信息共享而超载,妨碍复杂回路形成 [8] 核心架构 - MUDD通过动态搭建跨层连接缓解表征坍塌,并为Q/K/V/R四路信息流定制独立连接 [7][13] - 连接权重由当前隐状态动态生成,实现深度维度的单头注意力机制 [11] - 相比静态连接的DenseFormer,动态连接能根据token上下文自适应调整信息提取 [10][11] 实验评估 - MUDDFormer在所有模型尺寸下均显著领先基线模型,834M性能超越1.89倍计算量的Transformer++ [15] - 深度扩展实验中,MUDDFormer在42层时仍保持收益,797M参数达到2.08倍Transformer++性能 [17] - 2.8B参数MUDDPythia在5-shot任务中准确率追平12B参数Pythia,实现4.2倍计算效率提升 [18][20] 技术优势 - 注意力头激活率平均比传统模型高2.4倍,显著增强Attention机制利用率 [23] - 通过独立动态连接有效缓解信息流干扰和残流过载问题 [7][13] - 模型在上下文学习中展现突出优势,特别适合复杂推理任务 [18][20][25]
国内首个智能化标准单元自动建库工具iCell在宁发布
南京日报· 2025-06-18 11:31
核心观点 - 国家集成电路设计自动化技术创新中心发布国内首个智能化标准单元自动建库工具iCell,标志着我国在电子设计自动化(EDA)领域取得重要进展 [1] - iCell工具为高端芯片设计提供自主可控的核心工具支撑,大幅提升设计效率 [1][2] 技术突破 - iCell创新性采用Transformer预训练方法的晶体管布局方法,深入学习已有单元的版图设计经验,利用强化学习进一步探索优化 [2] - 通过多任务学习的统计建库方法,大幅降低仿真开销,显著缩短单元建库周期 [2] - 传统建库方式依赖人工经验,需数百名工程师耗时数月完成,而iCell实现标准单元库的自动化构建 [1] 应用场景 - iCell通过单元设计——工艺联动,实现工艺探索和优化,作为点工具应用于先进工艺代工厂 [2] - 通过高性能DTCO流程和设计服务直接对接国内高端芯片企业 [2] - 目前iCell在国内的龙头芯片设计公司以及存储代工企业得到应用 [2] 行业背景 - 国家集成电路设计自动化技术创新中心由南京市政府联合东南大学共同发起成立,于2022年12月获科技部批建 [1] - 中心聚焦下一代电子设计自动化(EDA)技术突破,以"智能EDA——计算一切电路"为宗旨 [1] - 标准单元是数字芯片设计的最小单位,在先进工艺上通常需要1000个到1万个不同的标准单元 [1]
迈向人工智能的认识论:如何推理对齐和改变他们的思维
36氪· 2025-06-16 09:54
要理解 LLM 的行为方式,回顾一下其架构基础知识会很有帮助: Transformer。Vaswani 等人提出的 Transformer 从根本上建立在 自注意力层 之上。每一层都允许模型在输入以及之前生成的输出 token 之 间动态地 重新分配注意力 ,这意味着它可以在每一步检索它认为相关的任何信息。这与 CNN 或固定 步长 RNN 等固定计算截然不同;注意力具有自适应性且由内容驱动。例如,在回答问题时,模型的注 意力头可能会专注于提示或其内部知识库中的不同关键事实。多个注意力头可以并行关注不同的事物, 使模型能够组合不同的信息或同时执行多个子任务。当 Transformer 处理文本时,它会在每一层中 构建 表示 ——我们可以将它们视为对迄今为止已阅读或生成内容的越来越抽象的摘要。 总而言之, Transformer 架构 通过允许灵活的、内容驱动的计算提供了原始的推理能力,但它并不能保 证模型能够 公开 这种计算。然后,对齐训练将模型包装在一组行为规范和目标中,这些规范和目标可 以进一步区分外部行为(包括解释)与内部原理。因此,我们面临这样一种情况: 模型可能在底层推 理正确,答案也对齐得很好,但 ...
下一个十年,AI的大方向
虎嗅· 2025-06-12 09:16
人工智能行业发展回顾 - 2015年AlphaGo击败李世石标志着人工智能技术出圈并迎来爆发期,AI四小龙等公司纷纷创业,主打视觉识别技术 [1] - 2025年行业回顾显示AI四小龙已纷纷凋零,中国AI领域涌现出文心、通义、混元等十余个大模型 [3][4] - 2015-2025年被视为AI上半场(视觉识别),2025-2035年可能转向视觉生成领域 [4] 当前AI技术热点 - 文本生成领域聚焦代码生成和文案生成 [4] - 语音生成领域集中在音乐生成和播客生成 [4] - 图片生成技术应用于海报制作和美颜功能 [5] - 视频生成技术覆盖广告制作和影视创作 [5] - 除中国代码生成外,中外AI企业已在其他生成领域实现商业化变现 [6] 技术里程碑事件 - 2017年Transformer架构颠覆传统专有模型研究范式,导致大量学者回归学术界 [7] - 2023年ChatGPT突破引发行业震动,谷歌仓促推出Gemini应对 [7] - 2024年OpenAI先后发布Sora视觉模型和深度思考o1系统,推动行业突破文本长度竞赛 [8] 头部企业技术路线 - ChatGPT和DeepSeek未重点布局生成技术,而是强化推理能力建设 [10] - DeepSeek的核心优势被归纳为国产化、开源架构、资源效率高、中文语料优化和媒体背书 [10] 技术发展方向争议 - 行业存在AGI(通用人工智能)与AIGC(生成式AI)发展路径的哲学争论 [11] - 可回收火箭案例显示技术创新价值常需事后验证,类比当前AI技术争议 [13][14][15] 技术应用原则 - 历史经验表明局域网/互联网/移动互联网/云计算时代均有明确应用边界 [16][17][18][19] - 人工智能时代需要建立类似"若无法实现XX功能则不应强行AI化"的应用准则 [20]
苹果憋一年终超同参数 Qwen 2.5?三行代码即可接入 Apple Intelligence,自曝如何做推理
AI前线· 2025-06-10 18:05
苹果新一代基座模型发布 - 推出两大基座模型:3B参数的紧凑型设备端模型和服务器端混合专家模型,均针对苹果芯片优化,支持15种语言及多模态输入[1] - 设备端模型通过5:3深度比分割和KV缓存共享技术,降低38.5%内存占用并改善首token生成速度[6] - 服务器端采用PT-MoE架构,通过独立轨道处理token减少同步开销,实现高效扩展[7] 模型架构创新 - 引入交错注意力架构结合RoPE和NoPE,提升长上下文处理能力并减少键值缓存大小[8] - 视觉系统采用1B参数ViT-g服务器模型和300M参数ViTDet-L设备模型,新增寄存器窗口机制增强全局/局部特征捕捉[12] - 量化技术实现设备端2-bpw和服务端3.56-bpw压缩,嵌入表统一4-bit量化,通过适配器恢复质量损失[17][18] 性能表现 - 设备端模型在所有语言环境超越Qwen-2.5-3B,英语环境媲美Qwen-3-4B和Gemma-3-4B[8] - 服务器端模型优于Llama-4-Scout,但落后于Qwen-3-235B和GPT-4o[8] - 视觉任务评估显示设备端模型优于InternVL-2.5-4B和Qwen-2.5-VL-3B,与Gemma-3-4B相当[10] 训练优化 - 分阶段预训练:文本模态阶段采用蒸馏损失降低90%训练成本,视觉阶段联合训练编码器[14] - 持续预训练整合合成数据提升代码/数学能力,多模态自适应保持文本能力[16] - RLHF技术带来16:9的人类评估优势比例,显著超越SFT效果[16] 开发者生态 - 推出基座模型框架,支持Swift语言三行代码接入3B设备端模型,内置文本摘要/实体提取等功能[20] - 框架支持工具调用和引导式生成,Automattic等厂商已应用于日记类产品开发[21] - 测试版通过Apple Developer Program提供,公开测试版将于下月上线[22]
裁员了,很严重,大家做好准备吧!
猿大侠· 2025-06-04 10:55
AI行业人才需求与转型趋势 - 传统技术岗位面临降薪淘汰压力,而AI大模型人才招聘薪资高达60K*16薪,行业人才结构正在重构[1] - 80%公司已将AI工具应用列为员工必备技能,Cursor等编程工具普及加速工作提效[1] - 大厂招聘标准转向AI大模型实战经验(非单纯API使用),缺乏相关经验者面试通过率大幅降低[1] AI大模型技术培训核心价值 - 课程提供大模型原理、应用技术到项目实战的全链路学习,覆盖Transformer架构、RAG、Agent等核心技术[2][4][11] - 通过金融行业"支小助"、知乎直答等真实案例拆解,学员可复现项目并写入简历[8][12] - 2天直播包含业务场景解析、技术架构剖析及大佬答疑,完课赠送大模型案例集和商业白皮书[2][3][15] 职业发展支持体系 - 提供大厂内推机会,简历直达面试官,已有学员实现高薪职业跃迁[6][14] - 行业大佬深度解析招聘风向,包括岗位薪资(如60K*16薪)、技术迭代路径等[1][6] - 垂直领域经验(如医保风控系统改造、电商智能客服优化)可显著提升岗位竞争力[4] 技术应用场景落地 - RAG技术适用于需频繁更新知识的场景(如智能客服),无需重新训练大模型[16] - Function Call通过集成外部工具增强大模型复杂任务处理能力[16] - 个人开发者可完成AI原生应用全栈开发,Transformer架构在行业解决方案中具普适性[11][12] 课程市场反馈 - 已开班58期,服务20000+学员,学习效果获广泛认可[14] - 本期限100个免费名额,24小时后关闭报名通道[3][15]