Workflow
Transformer
icon
搜索文档
英伟达DLSS 4.5来了:Transformer再进化消除鬼影,“拼好帧”最高提至6倍还能动态调节
量子位· 2026-01-16 15:21
DLSS 4.5技术升级 - 文章核心观点:英伟达在CES 2026期间发布了DLSS 4.5,这是一套旨在同时提升游戏画质与帧率的完整升级方案,通过“双核心”策略为玩家带来显著的游戏体验提升[1][3] - 技术采用“双核心”策略,同时针对画质与性能进行升级,旨在解决玩家最关心的画质与帧率问题[3] - 两项核心技术相结合,可带来高达35%的性能提升,以实现4K 240Hz路径追踪游戏体验[8] 画质核心:第二代Transformer超分辨率 - 画质核心基于第二代Transformer模型的超分辨率技术,负责提升画面细节[4] - 该模型的计算能力达到第一代Transformer的5倍,并在大幅扩展的高保真数据集上完成训练[12] - 模型直接在游戏引擎原生的线性空间中进行训练和推理,以解决前代技术在处理高对比度场景或快速运动物体时出现的光线暗淡、细节丢失或伪影问题[16][17] - 升级效果显著,例如在《上古卷轴IV:湮灭重制版》中,开启后快速移动物体的拖影瑕疵大幅减少[19],在《天国:拯救2》中消除了画面移动时的背景闪烁问题[22] - DLSS 4.5的超分辨率功能面向所有GeForce RTX显卡用户开放,旧版显卡用户可通过NVIDIA App更新获得更稳定清晰的画质[21] 性能核心:动态多帧生成 - 性能核心是专为RTX 50系列打造的动态多帧生成技术[6] - 在数量上,DLSS 4.5带来了全新的6倍多帧生成模式,能为每一个传统渲染帧额外生成多达5帧画面,暴力提升帧率[25] - 例如,该技术能让过去帧率不到190fps的《黑神话:悟空》以240fps的帧率运行[27] - 在机制上,升级为“动态多帧生成”,系统持续监测GPU性能与显示器最高刷新率的差距,并据此按需自动调节插帧倍数,以在保证画质、帧率和响应速度平衡的前提下,自动将帧率拉满至显示器上限[29][30][32][33] 相关显示技术:G-SYNC Pulsar - 英伟达同时发布了G-SYNC Pulsar显示技术,旨在将高速移动画面(如CS2)的动态模糊降到最低[34] - 官方演示中,开启该技术后,360Hz刷新率的显示器可拥有相当于1000Hz的视觉清晰度[35] - 华硕、AOC、微星等厂商的首批支持该技术的显示器已经登场[36]
China just 'months' behind U.S. AI models, Google DeepMind CEO says
CNBC· 2026-01-16 07:30
文章核心观点 - 谷歌DeepMind首席执行官Demis Hassabis评估中国AI模型能力可能仅落后美国及西方“几个月”而非此前认为的差距巨大[3][4] - 中国AI模型在追赶前沿方面表现出色但尚未证明其具备开创性科学突破的能力[6][8] - 中国在AI发展上面临芯片获取限制等挑战但本土企业正努力填补空白[10][11] 中国AI模型发展现状与评估 - 约一年前中国AI实验室深度求索发布的模型因其在较低成本与较落后芯片上实现强劲性能引发市场震动[5] - 除深度求索外中国科技巨头如阿里巴巴以及初创公司月之暗面、智谱AI也已发布能力很强的模型[5] - 英伟达首席执行官黄仁勋去年曾表示美国在AI竞赛中“领先不远”并指出中国在能源领域领先美国在芯片领域领先而中国在基础设施和AI模型方面紧追不舍[8][9] - 阿里巴巴千问团队技术负责人林俊阳在北京AI会议上表示未来三到五年内中国公司超越美国科技巨头的可能性低于20%并称美国计算基础设施规模比中国“大一到两个数量级”[15] 中美AI能力差距与未来展望 - Hassabis认为中国AI模型比一两年前预想的更接近美国及西方水平目前可能仅落后几个月[3][4] - 关键问题在于中国公司能否超越现有前沿进行类似Transformer的创新而不仅仅是追赶Hassabis称尚未看到此类证据[6][8] - Janus Henderson投资组合经理Richard Clode认为随着美国更优越的AI基础设施持续迭代模型未来几年中美AI模型能力可能出现分化并预计当前可能是中国相对美国AI能力的峰值[12] - 部分分析师认为长期缺乏英伟达芯片可能导致中美AI模型差距扩大[11] 中国AI发展的挑战 - 中国科技公司面临多项挑战其中获取关键技术是最大障碍之一美国对英伟达先进半导体实施出口禁令这些芯片是训练更先进AI模型所必需的[10] - 白宫已表示将批准英伟达向中国销售H200芯片该芯片比中国近期能获得的更先进但并非英伟达最高端产品[10] - 华为等本土芯片企业试图填补空白但其性能仍落后于英伟达的产品[11] - Hassabis将中国缺乏前沿突破归因于“思维方式”而非技术限制[15] 创新能力的讨论 - Hassabis将DeepMind比作鼓励“探索性创新”的“现代版贝尔实验室”而非仅仅扩展现有技术[16] - 他认为科学创新部分要困难得多发明某物比复制它“难大约100倍”[17] - 中国已具备进行追赶所需的世界级工程能力但开创性突破是下一个前沿[6][16]
Ambarella (NasdaqGS:AMBA) FY Conference Transcript
2026-01-14 05:47
公司概况与业务转型 * 公司是边缘AI半导体公司Ambarella,其产品广泛应用于视频安防、ADAS、电子后视镜、网联汽车、驾驶员与座舱监控、自动驾驶、边缘基础设施、无人机及其他机器人应用[2] * 公司已成功从一家销售消费类视频处理器的公司转型为销售AI SoC的公司,服务于智能边缘和边缘基础设施应用,涵盖企业资本支出和消费设备市场[5] * 公司约80%的营收来自边缘AI业务[2] 技术架构演进与营收构成 * 公司第一代业务基于视频处理器,用于人类观看(如GoPro运动相机)[6] * 第二代芯片CV2系列专门针对CNN神经网络,于2018年开始出货,目前占公司总营收的80%,标志着公司从人类观看业务转向机器感知业务[7] * 第三代芯片架构(如CV72、CV75、CV3、N1系列)基于Transformer,于去年第三和第四季度开始量产爬坡,旨在捕捉比CNN更大的市场机会[8][9] * 目前,基于CNN的网络贡献了100%的AI营收(即总营收的80%),而基于Transformer的营收尚未大规模起量[10] 市场机会与增长驱动 **CNN与Transformer市场展望** * 基于CNN的业务年营收已超过3亿美元[13] * 基于Transformer的业务有望带来显著的单位增长和平均售价增长,CV2系列平均售价为15-75美元,而第三代芯片(CV3、CV7、N1系列)平均售价为20-400美元[13] * 生成式AI新应用不仅将促使现有客户升级产品周期,还将催生新的应用场景[14] * 预计未来一两年内,基于Transformer的业务将迎来巨大的上升空间和大量的新设计订单[12] **新应用场景示例** * **机器人/自动驾驶**:包括自动驾驶汽车和无人机在内的所有机器人,最终都将使用基于Transformer的端到端网络作为量产软件解决方案[17] * **边缘基础设施/生成式AI**:例如,在快餐店得来速通道,利用现有摄像头和大语言生成式AI模型,不仅能识别车辆、颜色、车牌,还能分析停留时间、点餐习惯、回头客情况,将安防摄像头转变为市场营销数据收集工具[19] * **智能体AI**:与Transformer浪潮并行发展,可充分利用生成式AI能力,使其更易于编程和更强大[21] 产品性能与路线图 * 低端第三代芯片CV75是一款2瓦芯片,可实时运行20亿参数的DeepSeek推理模型,成本约为20美元(正负浮动),这为500M到20-30亿参数模型的应用打开了新机会[24][25] * 高端N1系列芯片可轻松运行340亿参数模型,未来路线图可支持高达700亿甚至1000亿参数的模型[26] * 公司将继续通过架构和最先进制程(如从5纳米转向2纳米)来提升能效,未来有望以1瓦甚至更低的功耗运行十亿参数模型[29] 近期财务表现与展望 * 公司在2026财年开局强劲,预计增长率将从年中的中高十位数百分比(mid-teens% to high-teens%)提升至年末的37%-38%左右[32] * 增长超出预期的驱动因素包括:企业安防摄像头业务持续健康增长;网联汽车(如Samsara类型市场)业务快速增长;便携式视频业务(包括360度相机、可穿戴相机、无人机相机等)全面增长[34][35] * 对于2027财年,公司预计企业安防等市场增长将继续,增长将来自平均售价和出货量两方面,但尚未提供官方指引[36] 战略举措与业务模式拓展 **CES 2024亮点** 1. **新产品发布**:宣布CV7芯片,其AI性能是CV5的2到2.5倍,功耗更低,预计将推动近期营收增长[37] 2. **新市场进入战略**:在现有直销模式基础上,新增通过与GSI/ISV等合作伙伴合作的模式,以触达更多细分市场(如物理AI、机器人、边缘基础设施)的小客户[38] 3. **定制/半定制芯片业务**:利用边缘AI IP和2纳米技术,与大型市场领导者客户开展定制芯片设计合作,客户支付NRE并承诺一定采购量,芯片也可销售给相邻市场[41][42] * 合作条件:客户必须是大型市场的领导者;芯片设计需主要利用Ambarella的IP(理想情况下超过90%)[42] * 产能规划:目前每年可支持约一个此类项目[44] * 财务影响:首个设计订单已纳入当前业务模型,公司整体毛利率(59%-62%)预计将维持[47][48] 各业务板块详情 **物联网业务** * 企业安防摄像头业务持续增长,但占比已降至物联网业务的略低于50%,过去占比更高[52] * 多元化应用蓬勃发展,包括: * **无人机**:与DJI合作已十年,新技术(如结合360度相机和眼镜的沉浸式体验)可能从根本上改变无人机操作方式,带来巨大市场潜力[49] * **可穿戴相机**:应用从警用扩展到零售业(如便利店店员),未来结合AI功能潜力巨大[52] * 边缘基础设施业务:首个设计订单将于今年第二季度投产[54] * 典型应用:通过N1 AI盒子聚合多个边缘端点(如酒店楼层的10个摄像头),在不更换摄像头的情况下,利用生成式AI升级所有摄像头的功能[55] * 应用场景:零售(如星巴克)、酒店、医院、学校等任何已部署安防摄像头的场所[58] * 财务特征:平均售价更高(如N1665H为三位数美元),但毛利率与公司整体水平相似[59][61] **汽车业务** * 2025年整个汽车市场非常疲软,许多西方OEM的L2/L2+设计订单被推迟,主因是需要制定软件战略并应对中国OEM的压力[62] * 公司战略不变,继续专注于几家目标OEM以获取设计订单[63] * 公司在自动驾驶领域过去五六年投入的软件技术,将同样适用于所有机器人应用(如无人机),未来可能采用双芯片方案(视频采集+导航),推动平均售价增长[63][64] * **软件栈更新**:公司已拥有两个可实现端到端AI的大模型,并开放授权(黑盒或源代码),这不仅适用于自动驾驶,也适用于无人机或机器人应用[65][66] * **L2+市场进展**:技术已获客户认可,挑战在于公司规模相对于大型竞争对手较小。公司正努力与更高级别的管理团队接洽,以避免再次在最后时刻被排除,希望今年能改善机会[67]
把RoPE扔掉,AI更能看懂长上下文,Transformer作者团队开源大模型预训练新方法
36氪· 2026-01-13 19:01
核心技术:DroPE - 针对Transformer模型长文本处理难题,由Llion Jones领导的Sakana AI团队开源了新技术DroPE [1] - DroPE被网友称为“NoRoPE”,其核心是一种通过丢弃位置嵌入来扩展上下文的方法 [3] - 该技术无需昂贵的长上下文训练即可实现零样本上下文扩展,且重新校准模型所需预训练预算不到1% [1] 技术原理与优势 - Transformer的自注意力机制会丢失文本序列的位置关系,需引入位置嵌入(如RoPE)来建立语序感知 [4][5] - RoPE在处理长序列时存在缺陷,高频维度易饱和,低频维度变化过慢,导致位置编码失效 [5] - DroPE将RoPE作为临时训练工具,在预训练阶段借助RoPE保证稳定性,在推理阶段丢弃位置嵌入并进行简短重校准,从而解锁模型的长上下文外推能力 [8] 性能表现 - 在LongBench基准测试中,DroPE将基础SmolLM模型(360M/1.7B)的平均得分提高了10倍以上 [10] - 在NIAH任务评估中,DroPE模型的召回率达到74.92%,大幅超越传统RoPE缩放方法 [10] - 对于7B参数的Llama2-7B模型,仅使用0.5%的预训练预算进行重校准,DroPE在长上下文任务中表现卓越 [11] - 具体数据:SmolLM-DroPE在MultiFieldQA、MuSiQue、GovReport、LCC、NIAH任务上的平均得分为30.52,显著高于使用RoPE-NTK(17.11)和YaRN(19.94)的版本 [11] - 在Llama2-7B模型上,DroPE在MultiFieldQA、MuSiQue、GovReport任务上的平均得分为26.08,高于基础模型(20.03)及RoPE-NTK(21.88)、YaRN(19.14)方法 [13] 研发公司背景 - DroPE技术由Sakana AI提出,该公司由Transformer架构核心作者之一Llion Jones和前谷歌高级科学家David Ha创办 [14] - Sakana AI曾获得英伟达的投资,并因推出首个自带10篇完整学术论文的“AI科学家”The AI Scientist而受到关注 [16] - 近期,Sakana AI还与MIT研究团队合作提出了“数字红皇后”算法,利用大语言模型在编程游戏中实现对抗性程序进化,其研究成果可能为网络安全、药物设计等领域提供参考 [18][20]
把RoPE扔掉,AI更能看懂长上下文!Transformer作者团队开源大模型预训练新方法
量子位· 2026-01-13 17:50
技术核心:DroPE方法 - 针对Transformer模型处理长文本的难题,由核心作者Llion Jones领导的团队开源了名为DroPE的新技术[1] - 该方法无需昂贵的长上下文训练,即可实现无缝的零样本上下文扩展[2] - 使用DroPE对模型进行重新校准所需的预训练预算不到1%[2] - DroPE可被理解为一种通过丢弃位置嵌入来扩展上下文的方法,被网友称为“NoRoPE”[4][5] 技术原理:位置嵌入与创新 - Transformer的自注意力机制在并行计算时会丢失文本序列的位置关系[6][7] - 为解决此问题引入了位置嵌入,其中RoPE是当前流行的方法,但它存在长序列处理缺陷[9][10] - DroPE的创新在于将RoPE作为临时训练工具:在预训练阶段借助RoPE保证稳定性,在推理阶段则丢弃位置嵌入并进行简短重校准[12][13][14] - 该方法成功解锁了模型的长上下文外推能力,实现了零样本扩展[15][16] 实验验证与性能表现 - 研究团队在多种模型上进行了实验,包括5M参数模型、SmolLM家族模型以及7B参数的Llama2-7B[17] - 在LongBench基准测试中,DroPE将基础SmolLM的平均得分提高了10倍以上[18] - 在NIAH任务评估中,DroPE模型的召回率达到74.92%,大幅超越传统RoPE缩放方法[19] - 具体数据:SmolLM-DroPE在MultiFieldQA、MuSiQue、GovReport、LCC、NIAH任务上的得分分别为29.33、7.93、21.87、18.56、74.92,平均分为30.52,显著高于其他方法[19] - 在Llama2-7B模型上,仅使用0.5%的预训练预算进行重校准后,DroPE在多项任务中表现卓越,平均得分达26.08,优于Base、RoPE-NTK和YaRN方法[23] 研发团队:Sakana AI - DroPE技术由Sakana AI团队提出,该公司由Transformer架构作者之一的Llion Jones和前谷歌高级科学家David Ha创办[24] - 该公司此前因创造出首个自带10篇完整学术论文的“AI科学家”而受到关注,并获得英伟达的投资[26] - 团队近期还与MIT合作提出了“数字红皇后”算法,利用大语言模型在编程游戏中实现对抗性程序进化,显示出在网络安全、药物设计等领域的潜在应用价值[28][31][32]
杨植麟揭秘Kimi预训练策略:提升Token efficiency,实现长文本
新浪财经· 2026-01-10 20:09
公司技术战略 - 月之暗面Kimi的预训练与模型设计核心围绕两大策略展开:提升Token Efficiency(令牌效率)和实现长上下文(Long context)[2][6] - 公司认为Transformer架构在长上下文场景中具有优势 实验表明当上下文长度增加到1000个token时 Transformer的性能表现会显著优于LSTM[2][6] - 在当前的Agentic(代理智能)时代 许多任务要求极长的上下文 因此一个拥有更低positional loss(位置损失)的架构 在执行Agent任务时具备更强的技术潜力[2][6] 技术原理与价值 - 关注Token efficiency的本质原因在于Agent的推理或训练是一个搜索过程 例如从零开发Linux就是一个搜索问题[3][7] - 更好的预训练和基础模型可以减少无意义或错误的Token组合搜索空间 从而为AI任务提供更好的先验[3][7] - 智能具有独特性 每个模型产生的Token并非可交换物 例如CEO与设计师产生的智能是不同的 因此在智能维度存在指数级增长的Taste(品位/审美)空间[4][8] 行业研发理念 - 除了架构与数据 AI模型研究非常重要的一点是具备Taste(品位和审美) 建模过程本质是在创造一种世界观 定义何为好的AI及其应追求的价值观[3][7] - 这一理念与乔布斯所强调的Taste相似 强调了在技术之外 对产品与智能本质的哲学思考与审美判断的重要性[3][7]
ds新论文
小熊跑的快· 2026-01-04 19:31
文章核心观点 - 字节跳动提出的mHC(Manifold-Constrained Hyper-Connections)技术是一种针对Transformer架构的工程优化方法 该方法通过将单一路径的残差连接扩展为多条可混合信息的并行通道 并施加数学约束以保持信息传递的稳定性 从而在不大幅增加计算开销的前提下 显著提升大模型的训练稳定性和性能表现 使得参数更小的模型能达到甚至超越传统更大参数模型的水平 [1][2][5] 技术背景与问题 - 传统Transformer模型在处理信息时 数据需逐层传递 层数过多会导致信息衰减甚至丢失 影响最终输出质量 [1] - 2015年提出的残差连接技术通过将每层输出与原始输入相加再传递 缓解了信息衰减问题 [1] - 2024年字节提出的Hyper-Connections方法拓宽了残差通路为多条并行通道 但信息每经过一层都需经过一个可学习矩阵处理 层数过多时易导致信号被无限放大 引发损失值飙升 [1] mHC技术原理与创新 - mHC的核心创新是在Hyper-Connections的基础上 为混合信息的矩阵添加了“流形约束” 具体是约束为“双随机矩阵” 即矩阵中每一行元素之和与每一列元素之和都等于1 [1] - 该约束使得信息在四条并行通道之间重新分配时总量保持不变 避免了信息在传递过程中被异常放大或衰减 从而确保了训练稳定性 [1][2] - 该方法仅引入了6.7%的额外训练时间开销 计算量增加不大 [1] - 其本质是在Transformer架构内部进行工程优化 而非颠覆性的路径革新 [5] 性能优势与影响 - mHC技术通过拓宽模型的信息通道并施加算法矩阵约束 使得数据传输更为有序 充分利用了带宽优势 [2] - 实验结果表明 采用mHC技术的27B参数模型 其性能能够超越传统参数规模更大的模型 [2] - 该技术可能与硬件做了适配优化 减少了跨节点数据调用量 从而更好地发挥了单卡计算性能 [3] - 预计未来会出现参数活性低于37B 但结构更“宽”的模型 [4]
梁文锋署名,DeepSeek 论文引爆 AI 圈:mHC 架构横空出世!网友:这工程难度是地狱级
AI前线· 2026-01-02 14:00
文章核心观点 - DeepSeek公司在2026年初发布了一篇重要学术论文,提出了一种名为mHC(流形约束超连接)的新型神经网络架构[2] - 该架构旨在解决现有超连接架构在大规模模型训练中存在的数值不稳定和信号爆炸等瓶颈,同时保留其性能提升优势,成为新一代基础模型设计的潜在方向[2] 架构创新解决的问题 - 传统Transformer的残差连接因维持恒等映射而保证信号稳定传递,是深度学习模型顺利训练的核心机制之一[6] - 近年来提出的超连接拓宽了残差流通道并增强了表达能力,但其无约束的连接矩阵破坏了恒等映射特性,在大规模训练中经常导致信号爆炸或梯度异常,影响训练稳定性和可扩展性[6] - mHC通过引入几何约束,将传统超连接的残差映射空间投影到特定的流形上,将连接矩阵限制在双随机矩阵流形内[6] - 这一投影不仅恢复了恒等映射性质,还在数学上保证了信号范数的稳定性,有效避免了信号放大和梯度爆炸等数值问题[6] - 核心技术实现上,研究团队采用了Sinkhorn-Knopp算法进行投影约束,并结合内核融合、重计算和通信重叠等基础设施层面的优化手段,控制系统开销[6] - 超连接将单一残差流扩展为多条并行残差流,并通过一个可学习的连接矩阵进行线性组合,但完全自由学习的连接矩阵不再保证包含恒等映射成分,其谱性质也无法受到约束,在大规模训练中极易导致信号放大、梯度爆炸或数值不稳定[7] - mHC的核心思路是通过引入几何约束,重新为复杂连接结构建立稳定性边界,将跨流连接矩阵的可行空间限制在双随机矩阵所构成的流形上[8] - 双随机矩阵的关键性质在于:单位矩阵本身就是双随机矩阵,因此传统残差结构仍然是该空间中的一个特例;同时,双随机矩阵的最大特征值为1,意味着其不会系统性放大信号范数[10] - 在实现层面,mHC采用工程上成熟且可微的Sinkhorn-Knopp算法,对无约束的连接矩阵进行投影[11] - 训练过程中,模型首先学习一个普通实值矩阵,然后在每次前向传播前,通过有限步Sinkhorn归一化,将其投影为近似双随机矩阵[12] - 论文披露的实验结果显示,在3B、9B乃至27B参数规模下,mHC不仅避免了传统超连接中常见的训练不收敛问题,还在多个任务上维持甚至提升了性能表现[12] - 从宏观角度看,mHC的意义在于为复杂残差拓扑的进一步探索提供了一种可扩展的理论与工程框架,为未来更复杂的多流、多路径网络设计打开了空间[12] 行业反响与意义 - 论文发布后,在人工智能研究者与产业从业者中引发了广泛讨论[14] - 有观点指出,DeepSeek近年来持续通过公开论文释放技术信号,其研究方向往往与后续模型迭代节奏密切相关[14] - 有行业观察人士认为,这反映出中国人工智能公司之间日益开放、协作的文化,这些公司公开发表的研究成果所占比例越来越高[15] - 在Reddit平台,有评论者指出,如果DeepSeek提出的方法能够在保持稳定性的同时实现良好扩展,其意义不容小觑[17] - 有评论者提到,为了保证效率,研究团队在CUDA内核层面进行了算子融合,并对训练流水线进行了专门优化,这类工作对工程能力提出了较高要求[18] - 论文由19名研究人员组成的团队完成,他们在拥有30亿、90亿和270亿参数的模型上测试了该方法,发现其扩展性良好,且没有增加显著的计算负担[15]
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
机器之心· 2026-01-01 16:22
文章核心观点 - DeepSeek公司发布了一篇新论文,提出了一种名为“流形约束超连接”的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - mHC通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1] - 该方法在保留“加宽残差流”带来的性能提升的同时,解决了其导致的训练不稳定和显存消耗过大的问题 [4] 技术背景与问题 - 传统的残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性,但瓶颈在于信息通道的宽度受限于隐藏层维度 [3] - 以超连接为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了残差连接范式,带来了显著的性能提升,但也带来了两个严重问题 [3] - 问题一:从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性 [3] - 问题二:额外增加了显著的内存访问开销 [3] - 原始的HC中,连接矩阵是自由学习的,没有约束,导致信号在经过多层传播后,数值会“爆炸”或“消失”,破坏了恒等映射的特性,模型越深越难训练 [6] - 通道变宽意味着显存读写和通信成本成倍增加,即“显存墙”问题 [6] mHC方法原理 - mHC是一个通用框架,它将HC的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率 [3] - 核心前提是将残差映射约束在一个特定的流形上,既能保持跨层信号传播的稳定性,又能促进残差流之间的相互作用,以保持模型的表达能力 [8][9] - 具体做法是将残差映射限制为双拟随机矩阵,即具有非负项且行和与列和均为1的矩阵 [10] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性 [4] - 选择双拟随机性的原因包括:其谱范数有界且不超过1,这意味着学习到的映射是非扩张的,可有效缓解梯度爆炸问题 [15] - 双拟随机矩阵集对矩阵乘法具有封闭性,确保了跨多层的复合残差映射仍保持双拟随机,从而可在整个模型深度上维持稳定性 [15] - 该集合构成了Birkhoff多胞形,是排列矩阵集的凸包,这意味着残差映射充当了排列的凸组合,其重复应用会单调地增加跨流的信息混合,起到鲁棒的特征融合作用 [15] - 团队还对输入映射和输出映射施加了非负约束,以防止因正负系数复合导致的信号抵消 [12] - 最终的约束映射通过Sinkhorn-Knopp算子获得,在实验中采用t_max=20次迭代 [16] 高效基础设施设计 - DeepSeek为mHC量身定制了基础设施设计,使其在扩展倍率n=4时在大模型中的训练开销仅增加6.7% [4][17] - 算子融合:重新调整RMSNorm的顺序以提高效率,并采用混合精度策略 [17] - 开发了统一的算子,将多次扫描和矩阵乘法融合,减少内存带宽瓶颈和算子启动开销 [18] - 在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播 [19] - 将输入和输出映射的应用与残差合并融合,显著减少了内存读写量 [20] - 重计算:为了减轻n流设计带来的内存压力,在前向传播后丢弃mHC算子的中间激活,并在反向传播时即时重新计算 [21] - 通过推导得出最优重计算块大小,以最小化总内存占用 [22] - DualPipe中的通信重叠:扩展了DualPipe调度算法,以改善流水线并行阶段边界处的通信与计算重叠 [23] - 在专用高优先级计算流上执行MLP层的内核,并避免在注意力层使用持久算子,以防止阻塞通信流并提高设备利用率 [23] 实验设置与模型配置 - 研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、超连接以及提出的mHC进行了对比分析 [25] - 采用了受DeepSeek-V3启发的MoE架构,训练了四种不同的模型变体 [26] - HC和mHC的扩展率n均设置为4,主要关注点是一个27B参数规模的模型 [26] - 训练了较小的3B和9B模型来分析计算扩展性,并训练了一个独立的3B模型在一个固定的1T Token的语料库上以研究Token规模的影响 [26] - 27B模型的总参数量为27.0B,训练了262B个Token [27] 实验结果:训练稳定性 - 在27B参数规模的模型上,mHC有效缓解了在HC中观察到的训练不稳定问题,与基线模型相比,最终损失降低了0.021 [29] - 梯度范数分析证实了稳定性的提升:mHC表现出明显优于HC的行为,保持了与基线模型相当的稳定轮廓 [29] 实验结果:下游任务性能 - 在8个不同的下游基准测试中,mHC始终优于基线模型,并在大多数基准测试中超越了HC [30] - 与HC相比,mHC进一步增强了模型的推理能力,在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益 [31] - 具体性能数据对比(27B模型): - BBH:基线43.8, HC 48.9, mHC 51.0 [30] - DROP:基线47.0, HC 51.6, mHC 53.9 [30] - GSM8K:基线46.7, HC 53.2, mHC 53.8 [30] - HellaSwag:基线73.7, HC 74.3, mHC 74.7 [30] - MATH:基线22.0, HC 26.4, mHC 26.0 [30] - MMLU:基线59.0, HC 63.0, mHC 63.4 [30] - PIOA:基线78.5, HC 79.9, mHC 80.5 [30] - TriviaOA:基线54.3, HC 56.3, mHC 57.6 [30] 实验结果:规模扩展性 - 计算规模扩展曲线涵盖了从3B、9B到27B参数规模的规模扩展过程,轨迹表明即使在更高的计算预算下,性能优势依然稳健地得以保持,仅表现出轻微的衰减 [34] - Token扩展曲线展示了3B模型在训练过程中的轨迹,验证了mHC在大规模场景下的有效性 [34]
两年前猛裁1.2万人后,谷歌吃起了“回头草”:新招的AI工程师中,20%是「老面孔」
猿大侠· 2025-12-25 12:09
谷歌在AI人才竞争中的“回流”策略 - 2025年,谷歌正以更“工程化”和务实的方式重新夺回AI领域话语权,其策略核心之一是大量召回前员工 [1] - 2025年谷歌新招募的AI软件工程师中,约有20%是前员工,这一比例明显高于往年 [1][4] - 这种“回流”趋势在2024年下半年开始明显加快,谷歌方面确认来自头部竞争对手的AI研究人员数量也明显高于2024年 [4] “回流”策略的背景与动因 - 2023年初,谷歌母公司Alphabet进行了史上最大规模裁员,约裁减1.2万人,占员工总数的6% [4] - 谷歌并未完全切断与离职员工的联系,而是将其视为一个潜在、可再激活的人才池 [4] - 前员工愿意回归的核心原因是“钱和算力”,谷歌拥有自研TPU、超大规模数据中心等将资金转化为算力的强大能力 [5] - 在AI研发中,长期稳定地使用大规模计算资源是决定上限的关键,这促使许多在创业公司试水后的工程师回流大厂 [5][6] 关键人物回归与内部变革 - Transformer论文作者之一Noam Shazeer于2024年8月重新加入DeepMind,这被视为谷歌对过去判断的一次修正,具有强烈象征意义 [7] - 过去一年,谷歌内部文化发生明显变化:开始承担更多风险、加快产品发布节奏,即便产品未完全成熟 [8] - 组织结构上持续“瘦身”:裁撤超过三分之一的小团队管理岗位,减少层级,压缩审批流程 [8] - 联合创始人Sergey Brin重返公司后,亲自参与了部分关键AI人才的招募工作 [8] 行业趋势与“回流”优势 - “召回”前员工的现象并非谷歌独有,根据ADP Research数据,今年科技行业整体“召回”前员工的比例上升,信息产业增幅最为明显 [9] - 频繁裁员、快速扩张、技术周期缩短,使得“离职-回归”成为一种常见的职业路径 [9] - 对企业而言,“召回”前员工优势明显:上手快、文化磨合成本低、在关键系统上有历史经验,尤其适合AI这类节奏紧张、试错成本高的项目 [10] 谷歌在AI领域的战略转向与市场表现 - 在生成式AI领域初期,谷歌反应被认为偏保守,一度被贴上“行动迟缓”的标签,导致DeepMind等团队核心成员被微软、OpenAI、Meta等竞争对手挖走 [11][12] - 从2024年开始,谷歌转变打法:一方面持续加码AI基础设施投入,另一方面使Gemini系列模型形成稳定产品线 [12] - 最新一代模型Gemini 3的发布,标志着谷歌在多模态和通用能力上的进一步推进 [12] - 资本市场反馈直接:Alphabet股价在2025年累计上涨超过60%,在一众科技巨头中表现最为亮眼 [13]