AGI为什么不会到来?这位研究员把AI的“物理极限”讲透了
36氪·2025-12-17 19:43

文章核心观点 文章核心观点认为,通用人工智能(AGI)的实现面临一系列根本性的物理和工程约束,而非单纯的理论或算法问题。当前AI行业的发展,特别是依赖模型规模扩展和硬件性能提升的路径,正在快速逼近其物理极限,预示着AGI可能不会以市场普遍预期的乐观方式到来 [1][4][9]。 被物理极限“锁死”的AGI - 计算是受物理规律约束的,信息移动的成本远高于计算本身,且成本随距离呈平方级增长,这构成了智能提升的根本限制 [5] - 芯片设计中,用于存储、互连和数据通路的面积远大于计算单元,更大的缓存必然更慢,制程进步使内存和带宽成本相对上升 [6] - Transformer架构的成功是在当前物理约束下接近最优的工程选择,其核心计算模式(局部MLP和受限的全局注意力)对应了硬件条件下最划算的操作,因此通过架构改进获得的边际收益正在快速下降 [4][7] 低垂果实已摘完 - 在成熟领域,获得线性改进往往需要付出指数级的资源投入,因为随着系统规模扩大,资源在时空和能量上的竞争导致协同效率下降 [10][16] - 绝大多数AI领域的“创新”是建立在已有框架上的渐进式改进,即使看似不同的方法(如状态空间模型与Transformer)也在解决同一核心问题,难以带来结构性跃迁 [4][11][12] - 这种约束在物理学中表现明显,验证更深层规律需要建造耗资数十亿美元的复杂装置,但带来的新答案有限,表明某些问题被资源和复杂度锁在现有能力之外 [15][17] GPU性能红利接近尾声 - AI过去的关键跃迁(如AlexNet、Transformer规模化)依赖GPU单卡性能提升和数量增加,但GPU性能的快速提升阶段大约在2018年已结束 [19][21][22] - 之后的“进步”依赖于一系列一次性、不可重复的工程红利,如采用FP16、Tensor Core、HBM高带宽内存、更低比特宽度(INT8/INT4)等,本质是用精度换吞吐,压榨物理边界 [23][24] - 这些“可压榨的空间”已基本用完,继续前进只能在计算效率与内存效率间权衡,无法带来数量级提升,硬件不再是能持续兜底问题的变量 [25][26][27][32] 规模化扩展面临成本拐点 - 过去模型规模的持续推进,依赖GPU指数级性能提升抵消了扩展所需的指数级资源投入,但现在变为指数级成本仅带来勉强的线性回报 [35][36] - 单纯靠规模扩展带来的提升窗口可能只剩一到两年,预计到2025年收益将非常有限,2026或2027年若无新研究路径或软件突破,扩展在物理上将不可持续 [36] - 当扩展的边际收益低于研究和软件创新时,硬件会从资产变成负担,一些小团队(如MoonshotAI, Z.ai)已证明无需天量算力也能接近前沿模型能力 [37][38][39] 基础设施护城河可能消失 - 大模型推理效率高度依赖规模本身,需要巨大用户规模来摊薄部署成本,这是当前开放权重模型未在成本上改写格局的原因 [41][42] - 一旦出现更适合中等规模的推理栈,能让大型模型(如3000亿参数)在较小规模下实现接近前沿实验室的推理效率,那么后者在基础设施上的护城河可能迅速消失 [44] - 小模型能力持续提升(如GLM 4.6)、AI应用垂直专业化降低对通用前沿模型的依赖、部署复杂度下降及硬件选择多样化,将共同使系统逼近物理最优解,规模优势的溢价会快速蒸发 [45] 缺乏物理载体的AGI是伪命题 - 真正的AGI需具备在现实世界中执行具有经济意义的体力劳动的能力,而这部分是人类经济活动中最受物理约束的领域 [4][48][49] - 机器人技术并未走向通用化,在受控环境(如工厂)中专用自动化系统已极其成熟且高效,而在非受控环境中,许多任务虽技术可行但经济上不成立,因为数据采集成本高而人类完成成本低 [50][51][52][54] - 机器人学习的扩展规律与大语言模型相似,但面临更严苛的现实约束(数据采集昂贵、反馈稀疏、状态空间巨大),其扩展速度远慢于纯数字环境 [53] “超级智能”叙事存在根本缺陷 - “超级智能”能自我改进并形成失控式跃迁的假设,忽略了智能是嵌入在物理系统中的能力,任何系统改进都需要资源,且线性改进往往需要指数级投入 [56] - 超级智能无法绕过GPU核心性能提升已近尾声、Transformer架构接近物理最优、大规模推理部署属成熟工程问题等基本物理和工程约束 [58] - 限制AI经济价值释放的关键是落地、部署与应用结构,而非能力上限,因此专注于降低部署门槛、推动经济普及的参与者更可能在长期胜出 [58][59]