Workflow
Transformer
icon
搜索文档
ds新论文
小熊跑的快· 2026-01-04 19:31
文章核心观点 - 字节跳动提出的mHC(Manifold-Constrained Hyper-Connections)技术是一种针对Transformer架构的工程优化方法 该方法通过将单一路径的残差连接扩展为多条可混合信息的并行通道 并施加数学约束以保持信息传递的稳定性 从而在不大幅增加计算开销的前提下 显著提升大模型的训练稳定性和性能表现 使得参数更小的模型能达到甚至超越传统更大参数模型的水平 [1][2][5] 技术背景与问题 - 传统Transformer模型在处理信息时 数据需逐层传递 层数过多会导致信息衰减甚至丢失 影响最终输出质量 [1] - 2015年提出的残差连接技术通过将每层输出与原始输入相加再传递 缓解了信息衰减问题 [1] - 2024年字节提出的Hyper-Connections方法拓宽了残差通路为多条并行通道 但信息每经过一层都需经过一个可学习矩阵处理 层数过多时易导致信号被无限放大 引发损失值飙升 [1] mHC技术原理与创新 - mHC的核心创新是在Hyper-Connections的基础上 为混合信息的矩阵添加了“流形约束” 具体是约束为“双随机矩阵” 即矩阵中每一行元素之和与每一列元素之和都等于1 [1] - 该约束使得信息在四条并行通道之间重新分配时总量保持不变 避免了信息在传递过程中被异常放大或衰减 从而确保了训练稳定性 [1][2] - 该方法仅引入了6.7%的额外训练时间开销 计算量增加不大 [1] - 其本质是在Transformer架构内部进行工程优化 而非颠覆性的路径革新 [5] 性能优势与影响 - mHC技术通过拓宽模型的信息通道并施加算法矩阵约束 使得数据传输更为有序 充分利用了带宽优势 [2] - 实验结果表明 采用mHC技术的27B参数模型 其性能能够超越传统参数规模更大的模型 [2] - 该技术可能与硬件做了适配优化 减少了跨节点数据调用量 从而更好地发挥了单卡计算性能 [3] - 预计未来会出现参数活性低于37B 但结构更“宽”的模型 [4]
梁文锋署名,DeepSeek 论文引爆 AI 圈:mHC 架构横空出世!网友:这工程难度是地狱级
AI前线· 2026-01-02 14:00
文章核心观点 - DeepSeek公司在2026年初发布了一篇重要学术论文,提出了一种名为mHC(流形约束超连接)的新型神经网络架构[2] - 该架构旨在解决现有超连接架构在大规模模型训练中存在的数值不稳定和信号爆炸等瓶颈,同时保留其性能提升优势,成为新一代基础模型设计的潜在方向[2] 架构创新解决的问题 - 传统Transformer的残差连接因维持恒等映射而保证信号稳定传递,是深度学习模型顺利训练的核心机制之一[6] - 近年来提出的超连接拓宽了残差流通道并增强了表达能力,但其无约束的连接矩阵破坏了恒等映射特性,在大规模训练中经常导致信号爆炸或梯度异常,影响训练稳定性和可扩展性[6] - mHC通过引入几何约束,将传统超连接的残差映射空间投影到特定的流形上,将连接矩阵限制在双随机矩阵流形内[6] - 这一投影不仅恢复了恒等映射性质,还在数学上保证了信号范数的稳定性,有效避免了信号放大和梯度爆炸等数值问题[6] - 核心技术实现上,研究团队采用了Sinkhorn-Knopp算法进行投影约束,并结合内核融合、重计算和通信重叠等基础设施层面的优化手段,控制系统开销[6] - 超连接将单一残差流扩展为多条并行残差流,并通过一个可学习的连接矩阵进行线性组合,但完全自由学习的连接矩阵不再保证包含恒等映射成分,其谱性质也无法受到约束,在大规模训练中极易导致信号放大、梯度爆炸或数值不稳定[7] - mHC的核心思路是通过引入几何约束,重新为复杂连接结构建立稳定性边界,将跨流连接矩阵的可行空间限制在双随机矩阵所构成的流形上[8] - 双随机矩阵的关键性质在于:单位矩阵本身就是双随机矩阵,因此传统残差结构仍然是该空间中的一个特例;同时,双随机矩阵的最大特征值为1,意味着其不会系统性放大信号范数[10] - 在实现层面,mHC采用工程上成熟且可微的Sinkhorn-Knopp算法,对无约束的连接矩阵进行投影[11] - 训练过程中,模型首先学习一个普通实值矩阵,然后在每次前向传播前,通过有限步Sinkhorn归一化,将其投影为近似双随机矩阵[12] - 论文披露的实验结果显示,在3B、9B乃至27B参数规模下,mHC不仅避免了传统超连接中常见的训练不收敛问题,还在多个任务上维持甚至提升了性能表现[12] - 从宏观角度看,mHC的意义在于为复杂残差拓扑的进一步探索提供了一种可扩展的理论与工程框架,为未来更复杂的多流、多路径网络设计打开了空间[12] 行业反响与意义 - 论文发布后,在人工智能研究者与产业从业者中引发了广泛讨论[14] - 有观点指出,DeepSeek近年来持续通过公开论文释放技术信号,其研究方向往往与后续模型迭代节奏密切相关[14] - 有行业观察人士认为,这反映出中国人工智能公司之间日益开放、协作的文化,这些公司公开发表的研究成果所占比例越来越高[15] - 在Reddit平台,有评论者指出,如果DeepSeek提出的方法能够在保持稳定性的同时实现良好扩展,其意义不容小觑[17] - 有评论者提到,为了保证效率,研究团队在CUDA内核层面进行了算子融合,并对训练流水线进行了专门优化,这类工作对工程能力提出了较高要求[18] - 论文由19名研究人员组成的团队完成,他们在拥有30亿、90亿和270亿参数的模型上测试了该方法,发现其扩展性良好,且没有增加显著的计算负担[15]
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
机器之心· 2026-01-01 16:22
文章核心观点 - DeepSeek公司发布了一篇新论文,提出了一种名为“流形约束超连接”的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - mHC通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1] - 该方法在保留“加宽残差流”带来的性能提升的同时,解决了其导致的训练不稳定和显存消耗过大的问题 [4] 技术背景与问题 - 传统的残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性,但瓶颈在于信息通道的宽度受限于隐藏层维度 [3] - 以超连接为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了残差连接范式,带来了显著的性能提升,但也带来了两个严重问题 [3] - 问题一:从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性 [3] - 问题二:额外增加了显著的内存访问开销 [3] - 原始的HC中,连接矩阵是自由学习的,没有约束,导致信号在经过多层传播后,数值会“爆炸”或“消失”,破坏了恒等映射的特性,模型越深越难训练 [6] - 通道变宽意味着显存读写和通信成本成倍增加,即“显存墙”问题 [6] mHC方法原理 - mHC是一个通用框架,它将HC的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率 [3] - 核心前提是将残差映射约束在一个特定的流形上,既能保持跨层信号传播的稳定性,又能促进残差流之间的相互作用,以保持模型的表达能力 [8][9] - 具体做法是将残差映射限制为双拟随机矩阵,即具有非负项且行和与列和均为1的矩阵 [10] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性 [4] - 选择双拟随机性的原因包括:其谱范数有界且不超过1,这意味着学习到的映射是非扩张的,可有效缓解梯度爆炸问题 [15] - 双拟随机矩阵集对矩阵乘法具有封闭性,确保了跨多层的复合残差映射仍保持双拟随机,从而可在整个模型深度上维持稳定性 [15] - 该集合构成了Birkhoff多胞形,是排列矩阵集的凸包,这意味着残差映射充当了排列的凸组合,其重复应用会单调地增加跨流的信息混合,起到鲁棒的特征融合作用 [15] - 团队还对输入映射和输出映射施加了非负约束,以防止因正负系数复合导致的信号抵消 [12] - 最终的约束映射通过Sinkhorn-Knopp算子获得,在实验中采用t_max=20次迭代 [16] 高效基础设施设计 - DeepSeek为mHC量身定制了基础设施设计,使其在扩展倍率n=4时在大模型中的训练开销仅增加6.7% [4][17] - 算子融合:重新调整RMSNorm的顺序以提高效率,并采用混合精度策略 [17] - 开发了统一的算子,将多次扫描和矩阵乘法融合,减少内存带宽瓶颈和算子启动开销 [18] - 在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播 [19] - 将输入和输出映射的应用与残差合并融合,显著减少了内存读写量 [20] - 重计算:为了减轻n流设计带来的内存压力,在前向传播后丢弃mHC算子的中间激活,并在反向传播时即时重新计算 [21] - 通过推导得出最优重计算块大小,以最小化总内存占用 [22] - DualPipe中的通信重叠:扩展了DualPipe调度算法,以改善流水线并行阶段边界处的通信与计算重叠 [23] - 在专用高优先级计算流上执行MLP层的内核,并避免在注意力层使用持久算子,以防止阻塞通信流并提高设备利用率 [23] 实验设置与模型配置 - 研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、超连接以及提出的mHC进行了对比分析 [25] - 采用了受DeepSeek-V3启发的MoE架构,训练了四种不同的模型变体 [26] - HC和mHC的扩展率n均设置为4,主要关注点是一个27B参数规模的模型 [26] - 训练了较小的3B和9B模型来分析计算扩展性,并训练了一个独立的3B模型在一个固定的1T Token的语料库上以研究Token规模的影响 [26] - 27B模型的总参数量为27.0B,训练了262B个Token [27] 实验结果:训练稳定性 - 在27B参数规模的模型上,mHC有效缓解了在HC中观察到的训练不稳定问题,与基线模型相比,最终损失降低了0.021 [29] - 梯度范数分析证实了稳定性的提升:mHC表现出明显优于HC的行为,保持了与基线模型相当的稳定轮廓 [29] 实验结果:下游任务性能 - 在8个不同的下游基准测试中,mHC始终优于基线模型,并在大多数基准测试中超越了HC [30] - 与HC相比,mHC进一步增强了模型的推理能力,在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益 [31] - 具体性能数据对比(27B模型): - BBH:基线43.8, HC 48.9, mHC 51.0 [30] - DROP:基线47.0, HC 51.6, mHC 53.9 [30] - GSM8K:基线46.7, HC 53.2, mHC 53.8 [30] - HellaSwag:基线73.7, HC 74.3, mHC 74.7 [30] - MATH:基线22.0, HC 26.4, mHC 26.0 [30] - MMLU:基线59.0, HC 63.0, mHC 63.4 [30] - PIOA:基线78.5, HC 79.9, mHC 80.5 [30] - TriviaOA:基线54.3, HC 56.3, mHC 57.6 [30] 实验结果:规模扩展性 - 计算规模扩展曲线涵盖了从3B、9B到27B参数规模的规模扩展过程,轨迹表明即使在更高的计算预算下,性能优势依然稳健地得以保持,仅表现出轻微的衰减 [34] - Token扩展曲线展示了3B模型在训练过程中的轨迹,验证了mHC在大规模场景下的有效性 [34]
两年前猛裁1.2万人后,谷歌吃起了“回头草”:新招的AI工程师中,20%是「老面孔」
猿大侠· 2025-12-25 12:09
谷歌在AI人才竞争中的“回流”策略 - 2025年,谷歌正以更“工程化”和务实的方式重新夺回AI领域话语权,其策略核心之一是大量召回前员工 [1] - 2025年谷歌新招募的AI软件工程师中,约有20%是前员工,这一比例明显高于往年 [1][4] - 这种“回流”趋势在2024年下半年开始明显加快,谷歌方面确认来自头部竞争对手的AI研究人员数量也明显高于2024年 [4] “回流”策略的背景与动因 - 2023年初,谷歌母公司Alphabet进行了史上最大规模裁员,约裁减1.2万人,占员工总数的6% [4] - 谷歌并未完全切断与离职员工的联系,而是将其视为一个潜在、可再激活的人才池 [4] - 前员工愿意回归的核心原因是“钱和算力”,谷歌拥有自研TPU、超大规模数据中心等将资金转化为算力的强大能力 [5] - 在AI研发中,长期稳定地使用大规模计算资源是决定上限的关键,这促使许多在创业公司试水后的工程师回流大厂 [5][6] 关键人物回归与内部变革 - Transformer论文作者之一Noam Shazeer于2024年8月重新加入DeepMind,这被视为谷歌对过去判断的一次修正,具有强烈象征意义 [7] - 过去一年,谷歌内部文化发生明显变化:开始承担更多风险、加快产品发布节奏,即便产品未完全成熟 [8] - 组织结构上持续“瘦身”:裁撤超过三分之一的小团队管理岗位,减少层级,压缩审批流程 [8] - 联合创始人Sergey Brin重返公司后,亲自参与了部分关键AI人才的招募工作 [8] 行业趋势与“回流”优势 - “召回”前员工的现象并非谷歌独有,根据ADP Research数据,今年科技行业整体“召回”前员工的比例上升,信息产业增幅最为明显 [9] - 频繁裁员、快速扩张、技术周期缩短,使得“离职-回归”成为一种常见的职业路径 [9] - 对企业而言,“召回”前员工优势明显:上手快、文化磨合成本低、在关键系统上有历史经验,尤其适合AI这类节奏紧张、试错成本高的项目 [10] 谷歌在AI领域的战略转向与市场表现 - 在生成式AI领域初期,谷歌反应被认为偏保守,一度被贴上“行动迟缓”的标签,导致DeepMind等团队核心成员被微软、OpenAI、Meta等竞争对手挖走 [11][12] - 从2024年开始,谷歌转变打法:一方面持续加码AI基础设施投入,另一方面使Gemini系列模型形成稳定产品线 [12] - 最新一代模型Gemini 3的发布,标志着谷歌在多模态和通用能力上的进一步推进 [12] - 资本市场反馈直接:Alphabet股价在2025年累计上涨超过60%,在一众科技巨头中表现最为亮眼 [13]
刚做了一份世界模型的学习路线图,面向初学者......
自动驾驶之心· 2025-12-25 11:24
世界模型与端到端自动驾驶的关系 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径[2] - 行业将自动驾驶世界模型的研究收敛于生成和重建两大领域[2] - 目前主流应用是利用世界模型进行闭环仿真,以应对Corner Case成本过高的问题[2] 世界模型课程核心内容架构 - 课程第一章概述世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派[5] - 课程第二章涵盖世界模型的基础知识,包括场景表征、Transformer、BEV感知等,是求职面试的高频技术点[5][6] - 课程第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、DriveVLA-W0及特斯拉世界模型模拟器等前沿工作[6] - 课程第四章聚焦视频生成类世界模型,讲解Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等算法,并以OpenDWM进行实战[7] - 课程第五章聚焦OCC生成类世界模型,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划[8] - 课程第六章分享世界模型在工业界的应用现状、行业痛点、期望解决的问题以及相关岗位的面试准备经验[9] 世界模型涉及的关键技术栈 - 基础技术包括Transformer、视觉Transformer、CLIP、LLaVA等多模态大模型基础[11] - 涉及BEV感知基础知识及占用网络[11] - 涵盖扩散模型理论,该模型是输出多模轨迹的热点技术[11] - 包括闭环仿真相关的NeRF和3DGS技术[11] - 也涉及其他生成式模型,如VAE、GAN以及Next Token Prediction[11] 世界模型相关的重要研究 - 国内重要研究包括清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交的II-World[12] 课程目标与受众要求 - 课程目标是推动端到端自动驾驶在工业界的落地,助力从业者深入理解端到端技术[10] - 学员需自备GPU,推荐算力在4090及以上[13] - 学员需具备自动驾驶领域基础,熟悉其基本模块[13] - 学员需了解transformer大模型、扩散模型、BEV感知等基本概念[13] - 学员需具备一定的概率论、线性代数及Python、PyTorch基础[13] - 课程期望使学员达到约1年经验的自动驾驶算法工程师水平,掌握世界模型技术进展及BEV感知等关键技术,并能复现主流算法框架[13] 课程进度安排 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[14] - 各章节解锁时间:第一章12月10日,第二章1月1日,第三章1月20日,第四章2月4日,第五章2月24日,第六章3月1日[15]
下周开课!我们设计了一份自动驾驶世界模型学习路线图....
自动驾驶之心· 2025-12-24 17:22
自动驾驶世界模型技术趋势与课程核心内容 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径[2] - 当前行业将自动驾驶世界模型的研究收敛于生成和重建两大领域,并主要用于闭环仿真[2] - 行业正经历风格转换,因处理Corner Case成本过高,需寻求更有效的手段[2] - 近期世界模型相关研究呈现爆发式增长[2] 课程结构与核心知识点 - 课程共分六章,从概述、背景知识到专题应用,系统讲解世界模型[5][6][7][8][9] - 第一章阐述世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派[5] - 第二章涵盖世界模型所需基础技术栈,包括场景表征、Transformer、BEV感知等[5] - 第三章聚焦通用世界模型,解析Marble、Genie 3、JEPA、DriveVLA-W0及特斯拉世界模型模拟器等前沿工作[6] - 第四章专注视频生成类世界模型,涵盖GAIA-1、GAIA-2、UniScene、OpenDWM、InstaDrive等,并以OpenDWM进行实战[7] - 第五章讲解基于OCC生成的世界模型,涉及OccWorld、OccLLaMA、HERMES、II-World等三大论文及一个项目实战[8][12] - 第六章为工业界应用与岗位专题,分享行业痛点、应用现状及面试准备经验[9] 课程技术深度与目标人群 - 课程深度覆盖BEV感知、多模态大模型、3DGS、扩散模型、NeRF、VAE、GAN等关键技术[11] - 课程面向具备一定自动驾驶基础、了解Transformer/扩散模型/BEV感知基本概念、有Python/PyTorch基础的学习者[13] - 学习目标为使学员达到约1年经验的自动驾驶世界模型算法工程师水平,能够复现主流算法并应用于实际项目[13] - 课程为离线视频教学,配备VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[14] - 课程自1月1日开课,预计两个半月结课,各章节按计划在12月10日至次年3月1日期间逐步解锁[14][15]
谷歌创始人罕见反思:低估 Transformer,也低估了 AI 编程的风险,“代码错了,代价更高”
AI前线· 2025-12-21 13:32
文章核心观点 - 谷歌联合创始人Sergey Brin认为,当前AI在代码生成等关键任务上存在严重错误风险,可能更适合创意类、文字类等容错率较高的工作 [2] - 谷歌在生成式AI路线上曾因对技术浪潮的低估、算力投入不足以及对产品化风险的过度担忧而出现迟疑,让竞争对手抢占了先机 [2] - 真正的AI竞赛核心并非简单的“砸钱堆算力”,过去十年算法进步的速度远超规模扩张,算力是“甜点”,而算法与工程才是“主菜和蔬菜” [3][55] - 大学和工程教育在AI时代面临根本性挑战,需要重新思考其知识创造、传播以及人才聚集的物理形态在未来百年的角色 [41][42][43] 谷歌的创业历史与文化基因 - 谷歌起源于斯坦福博士阶段的自由研究环境,早期尝试过多种项目,包括失败的在线订披萨网站 [6][7][8] - 公司创立是技术授权失败后的“最后一个选项”,曾尝试以160万美元将技术授权给Excite但未成功 [10] - 公司创立之初就确立了宏大的使命(“整合全球信息”)和重视基础研发的学术精神,这深刻影响了其文化 [12][13] - 早期招聘大量博士,并基于对深技术的信任招揽顶尖人才(如Jeff Dean),奠定了其创新基础 [14][24] 对AI发展的观察与反思 - 谷歌低估了Transformer论文之后的技术浪潮,在扩大量级算力上投入不足,且因害怕聊天机器人“说蠢话”而过于谨慎,延迟了产品化 [22][23] - 谷歌的长期积累(如Google Brain、自研TPU芯片、大规模数据中心)使其仍能站在AI前沿 [24][25] - AI发展速度极快,竞争激烈,其最终能力上限和走向(包括超级智能)仍是未知数 [26][27][28] - AI目前更多是增强人类能力的工具,能提供各领域80%-90%的概览知识,让个体更有能力 [30][31][33] 对人才、教育与创业的建议 - 不建议因AI会写代码而放弃学习计算机科学,编码能力对AI发展本身至关重要,且AI生成的代码可能存在严重错误 [35][36][38] - 给创业者的建议是避免过早商业化,需将产品打磨成熟后再推向市场,以免被外部期待绑架,并以Google Glass为例说明了抢跑的教训 [50][51][52] - 在AI时代,大学需重新定义自身价值,在线教育和AI助手使知识获取民主化,但高密度人才物理聚集的“生态”价值仍需思考 [41][42][43] - 学术界到产业界的创新管道价值面临挑战,因产业界研发和规模化速度加快,但某些需要长期“发酵”的激进探索(如量子计算新路径)可能仍需学术界 [46][48][49] 未来技术趋势判断 - 材料科学是被严重低估的新兴技术方向,其突破对AI、量子计算等领域有巨大潜在影响 [56] - 生物与健康领域的分子科学、合成生物学同样充满机会,不应被AI完全掩盖光芒 [56][57] - 解决AI发展瓶颈的关键在于算法、新模型架构(如Transformer的替代者)和训练方法的进步,这些比单纯扩大算力和数据规模更重要 [53][54][55]
AGI为什么不会到来?这位研究员把AI的“物理极限”讲透了
36氪· 2025-12-17 19:43
文章核心观点 文章核心观点认为,通用人工智能(AGI)的实现面临一系列根本性的物理和工程约束,而非单纯的理论或算法问题。当前AI行业的发展,特别是依赖模型规模扩展和硬件性能提升的路径,正在快速逼近其物理极限,预示着AGI可能不会以市场普遍预期的乐观方式到来 [1][4][9]。 被物理极限“锁死”的AGI - 计算是受物理规律约束的,信息移动的成本远高于计算本身,且成本随距离呈平方级增长,这构成了智能提升的根本限制 [5] - 芯片设计中,用于存储、互连和数据通路的面积远大于计算单元,更大的缓存必然更慢,制程进步使内存和带宽成本相对上升 [6] - Transformer架构的成功是在当前物理约束下接近最优的工程选择,其核心计算模式(局部MLP和受限的全局注意力)对应了硬件条件下最划算的操作,因此通过架构改进获得的边际收益正在快速下降 [4][7] 低垂果实已摘完 - 在成熟领域,获得线性改进往往需要付出指数级的资源投入,因为随着系统规模扩大,资源在时空和能量上的竞争导致协同效率下降 [10][16] - 绝大多数AI领域的“创新”是建立在已有框架上的渐进式改进,即使看似不同的方法(如状态空间模型与Transformer)也在解决同一核心问题,难以带来结构性跃迁 [4][11][12] - 这种约束在物理学中表现明显,验证更深层规律需要建造耗资数十亿美元的复杂装置,但带来的新答案有限,表明某些问题被资源和复杂度锁在现有能力之外 [15][17] GPU性能红利接近尾声 - AI过去的关键跃迁(如AlexNet、Transformer规模化)依赖GPU单卡性能提升和数量增加,但GPU性能的快速提升阶段大约在2018年已结束 [19][21][22] - 之后的“进步”依赖于一系列一次性、不可重复的工程红利,如采用FP16、Tensor Core、HBM高带宽内存、更低比特宽度(INT8/INT4)等,本质是用精度换吞吐,压榨物理边界 [23][24] - 这些“可压榨的空间”已基本用完,继续前进只能在计算效率与内存效率间权衡,无法带来数量级提升,硬件不再是能持续兜底问题的变量 [25][26][27][32] 规模化扩展面临成本拐点 - 过去模型规模的持续推进,依赖GPU指数级性能提升抵消了扩展所需的指数级资源投入,但现在变为指数级成本仅带来勉强的线性回报 [35][36] - 单纯靠规模扩展带来的提升窗口可能只剩一到两年,预计到2025年收益将非常有限,2026或2027年若无新研究路径或软件突破,扩展在物理上将不可持续 [36] - 当扩展的边际收益低于研究和软件创新时,硬件会从资产变成负担,一些小团队(如MoonshotAI, Z.ai)已证明无需天量算力也能接近前沿模型能力 [37][38][39] 基础设施护城河可能消失 - 大模型推理效率高度依赖规模本身,需要巨大用户规模来摊薄部署成本,这是当前开放权重模型未在成本上改写格局的原因 [41][42] - 一旦出现更适合中等规模的推理栈,能让大型模型(如3000亿参数)在较小规模下实现接近前沿实验室的推理效率,那么后者在基础设施上的护城河可能迅速消失 [44] - 小模型能力持续提升(如GLM 4.6)、AI应用垂直专业化降低对通用前沿模型的依赖、部署复杂度下降及硬件选择多样化,将共同使系统逼近物理最优解,规模优势的溢价会快速蒸发 [45] 缺乏物理载体的AGI是伪命题 - 真正的AGI需具备在现实世界中执行具有经济意义的体力劳动的能力,而这部分是人类经济活动中最受物理约束的领域 [4][48][49] - 机器人技术并未走向通用化,在受控环境(如工厂)中专用自动化系统已极其成熟且高效,而在非受控环境中,许多任务虽技术可行但经济上不成立,因为数据采集成本高而人类完成成本低 [50][51][52][54] - 机器人学习的扩展规律与大语言模型相似,但面临更严苛的现实约束(数据采集昂贵、反馈稀疏、状态空间巨大),其扩展速度远慢于纯数字环境 [53] “超级智能”叙事存在根本缺陷 - “超级智能”能自我改进并形成失控式跃迁的假设,忽略了智能是嵌入在物理系统中的能力,任何系统改进都需要资源,且线性改进往往需要指数级投入 [56] - 超级智能无法绕过GPU核心性能提升已近尾声、Transformer架构接近物理最优、大规模推理部署属成熟工程问题等基本物理和工程约束 [58] - 限制AI经济价值释放的关键是落地、部署与应用结构,而非能力上限,因此专注于降低部署门槛、推动经济普及的参与者更可能在长期胜出 [58][59]
布林坦承谷歌低估Transformer,“还被OpenAI挖走了Ilya”
36氪· 2025-12-15 19:02
谷歌的创业起源与发展 - 谷歌的创立源于1995年斯坦福大学拉里·佩奇与谢尔盖·布林的合作,他们最初共同开发了名为BackRub的搜索算法,该算法通过链接分析确定网页重要性,成为谷歌的前身[7][11] - 创始人最初试图将BackRub技术授权给互联网公司但未能成功,因此被迫选择自行创业,并获得了天使投资,布林为此中断了博士学业[11] - 公司名称“Google”源自代表数字1后面带100个零的数学表达式,体现了其整合全球信息的宏大野心[12][14] 公司的文化与早期创新 - 早期谷歌积极营造学术氛围,注重基础研发投入,并吸纳了许多博士生,形成了创新与打破常规的文化[14] - 公司早期具有鲜明的实验精神,例如第一台服务器机箱由乐高积木搭建,浏览器首个涂鸦暗示员工参加火人节,甚至为公司养的狗撰写员工观察日志[14][15] - 随着技术复杂度提升,公司着重聘请数学、计算机科学人才以及具备计算技能的物理学家,为其技术领先奠定了基础[18] 在人工智能领域的领先与失误 - 谷歌曾是AI领域的先驱:2012年发表Cat paper证明了无监督学习的可行性,并是最早将深度学习大规模工程化的公司之一,当时汇聚了Hinton、吴恩达、Ilya Sutskever、Demis Hassabis等顶尖专家[18] - 然而,公司在Transformer论文发表后犯下重大战略错误,内部未给予足够重视,也未加大计算资源投入,因担心聊天AI“会说蠢话”而不敢轻易推向市场,从而将机会拱手让给了OpenAI[4][18] - OpenAI抓住了此次机会,甚至从谷歌挖走了包括Ilya Sutskever在内的人才[18] 公司的技术优势与当前AI布局 - 得益于长期的研发历史,包括谷歌大脑团队和对早期神经网络的投入,公司在AI领域仍保持技术优势[20] - 谷歌很早就为AI开发了专用TPU芯片,也是最早使用GPU的公司之一,拥有大规模数据中心、自研半导体、深度学习算法等全栈技术,这使其在快速变化的AI竞争中能保持领先[20] - 创始人布林在“退休”后重新回归公司,将大量精力投入Gemini的研发,参与技术讨论、代码审查和训练细节,推动核心AI产品发展[27] 对人工智能未来的看法与建议 - 布林认为AI技术将赋予人们更多能力,在工作、创业、健康和生活方面拥有巨大潜力,但其智能发展的最终程度尚不确定[20] - 他建议大学生积极利用AI作为工具,例如用于挑选礼物、构思产品想法或艺术创作,通常做法是让AI生成多个想法以供启发和完善[21] - 他认为AI在比较文学等创造性工作上可能更擅长,因此不推荐该专业,同时指出量子计算和材料科学可能是被低估的、具有长期影响的未来技术,并建议关注AI和量子计算在材料科学中的应用[4][23] 对创业与产品开发的反思 - 布林以谷歌眼镜的失败为例,告诫创业者不要过早将不成熟的想法商业化,而应在成本控制和消费者体验上做好充足准备[4][25] - 他反思自己在推出谷歌眼镜时过于自信,但认识到史蒂夫·乔布斯的成功独一无二,总结出当想法被外界期待、成本增加、交付期限临近时,必须充分打磨产品,避免陷入被期望裹挟的恶性循环[25] 对教育及个人工作的思考 - 布林认为,随着在线平台和AI的普及,知识的传播正变得普遍化,大学应重新思考其定位,未来可能更侧重于跨地域远程教育,其意义在未来一百年可能发生根本改变[23] - 他透露自己保持思维敏锐的方法之一是经常在驾车时与Gemini对话,询问如建设数据中心所需电力兆瓦数与成本等实际问题[28] - 布林回顾其“退休”决定,认为离开工作后状态变差,现在视其为一个大错误,并强调生命的意义在于找到热情并不懈奋斗[6][27][29]
重磅!8 年后回到斯坦福,谷歌创始人谢尔盖·布林复盘:AI为什么落后,又如何实现绝地反击?(附视频)
美股IPO· 2025-12-15 08:24
谷歌的成功经验与早期决策 - 公司早期确立了整合全球信息的宏大使命,并建立了学术化的公司文化,重视基础研发投入 [11][12] - 公司通过敢于尝试技术深度高、具有挑战性的难题来培育创新文化,例如在AI领域早期就确定了方向 [12][13] - 公司过去25年的重大创新决策包括收购YouTube、DoubleClick,发展Waymo以及自主研发芯片 [12] 谷歌在AI领域的得失与核心优势 - 公司在约8年前发布Transformer论文后出现决策失误,因担心聊天机器人说蠢话而未足够重视及快速推广技术,导致在AI商业化部署上失去先机 [3][10][15] - 公司在AI领域的持续竞争力源于对深层基础技术的长期投入,包括十多年前开始开发AI专用芯片TPU以及建设大规模数据中心 [4][16] - 公司拥有从算法、半导体到计算设施的全栈基础设施掌控能力,使其能够站在现代AI的前沿竞争 [4][16] 对未来AI技术发展的看法 - AI未来的突破将更多地依赖于算法进步和潜在的新架构,而非仅仅扩大数据和计算规模 [5][29] - 过去十年中,算法进步的速度实际上已经超过了计算能力的增长速度 [5][29] - 在算力受限的背景下,学界的研究方向可以聚焦于如何用更少的资源做更多的事 [30] 对教育、专业选择与学术界的看法 - 大学未来的形态可能不应再局限于地理位置,信息传播和远程协作将改变其概念 [20] - 学生应将AI作为增强个人能力的工具,用于头脑风暴和获取专业知识概览 [7] - 在AI擅长编程的背景下,学习计算机科学依然有价值,因为编程有巨大市场价值且能推动AI进步,而AI在处理如比较文学等创造性任务时可能更容易 [6][18] - 学术界在需要十年甚至更久、以纯探索为主的长周期基础研究上仍具有不可替代的价值,产业界往往不愿承担此类长跨度项目 [22][24] - 从学术到产业的路径时间已被大幅压缩,学术界在部分快速落地领域的“先行期”优势可能减弱,但在如量子计算等激进、底层的创新探索上仍适合 [22][23] 对创业者与其他技术领域的建议 - 创业者应避免在想法未完全成熟前过快商业化,需给予产品足够的发展时间,避免陷入外部期望滚雪球的困境 [26] - 材料科学是一个被严重低估的技术方向,其在AI和量子计算等领域的应用潜力巨大 [33][34] - 生物与健康领域,特别是分子科学和合成生物学,正在发生革命但获得的关注度明显不如AI [34]