GPT-5作者复盘：趁OpenAI沉迷ChatGPT，Anthropic死磕代码，这是一场教科书级的“偷家”

文章核心观点 - Transformer架构驱动了万亿美元的AI革命，但其学习机制与人类存在本质差异，行业正探索“后Transformer”架构以寻求更高效的泛化能力 [1][3][6][7] - 当前大语言模型是低效的学习者，需“吞噬”万亿级Token的互联网语料、穷尽所有错误选项后才能理解底层概念，这与人类高效、小数据的学习方式背道而驰 [3][6] - 行业预训练扩展速度已明显放缓，焦点正全面转向智能体（Agent）落地、工程化探索以及强化学习的应用 [3] - AI行业技术迭代迅速，存在周期性“技术海啸”，成功关键在于将筹码押注于代表“明天”的趋势，而非贪恋“今天”的繁华 [4][51] 模型架构与学习机制 - Transformer结合思维链、强化学习和工具调用后展现出惊人能力，但其学习方式仍被视为“外星人”式的独特思维，泛化路径与人类不同 [5][33] - 模型在数学、代码等可验证领域取得突破，能以前沿水平探讨数学问题，但其学习奥秘尚未被完全参透，依赖海量数据和算力 [11] - 纯粹的Transformer架构在处理逻辑难题时表现不佳，但注入循环机制或调整架构/损失函数后，即使在极小的模型规模下也能实现显著性能提升 [14][15] - 行业直觉认为存在更高效、更本质的学习机制，多家实验室正探索“后Transformer”新架构，但尚未有压倒性优势的方案出现 [6][7][8][10] - 人类学习机制对AI有深刻启示：人类能用极少数据完成复杂任务，且能在缺乏海量试错周期的情况下进行深度研究，这是当前模型缺失的核心能力 [9][26] 行业发展与竞争格局 - 行业正从预训练规模扩展转向智能体工程化和强化学习应用，Cursor等工具带来的能力跃升（如5-10倍效率提升）重塑了研究和工作范式 [3][17] - Anthropic通过将全部资源聚焦于“代码”单一战场，在巨头盲区建立了护城河，而当时OpenAI的核心力量被ChatGPT现象级产品所牵制 [9][51][52] - OpenAI在关键节点选择全力押注“推理”能力，并将其提升至与预训练同等的战略高度，这一冒险决策奠定了其后续的领先能力 [45][46][47] - 硬件算力的指数级增长（如单张5090显卡算力约200 Teraflops，相当于Transformer论文时期五台服务器的总和）极大地降低了研究门槛，释放了创造力 [37][38] - 开源与闭源模型将长期共存、螺旋上升：闭源模型在实力上限领先，而开源模型受“主权模型”等刚性需求驱动，生态将保持繁茂 [57][58] 模型能力现状与挑战 - 大模型在代码生成等任务上已接近人类实习生水平，能带来5-10倍的效率提升，但尚无法达到独立研究员的水平，仍需密切监督 [17][19] - 模型泛化能力呈“锯齿状”，在某些领域表现出色，在另一些看似相近的领域却可能完全卡壳，存在不可预知的盲区 [33] - 在物理世界（如自动驾驶）和“小数据”场景下，模型面临严峻挑战，数据扩展效率低下，泛化能力不足，例如Waymo无法将城市施工区经验泛化到高速公路 [12] - 模型在“品味”等主观领域存在局限，尽管可通过收集人类反馈数据进行强化学习来提升，但当前机制仍显笨拙，需不断“打补丁” [29][30][31] - 长上下文（Long Context）的实用解决方案已转向赋予模型使用grep等工具检索文件的能力，并结合强化学习进行上下文压缩，而非单纯扩展Token长度 [21][22] 技术演进与未来方向 - 多模态学习尚未取得颠覆性进展，当前将图像切割成补丁（Patches）再串行处理的方式效率低下，未来需要支持并行吸收感官信息的革命性架构 [42][43][44] - 强化学习是当前模型能力提升的关键范式，只要存在能判断好坏的“裁判”，模型就能针对性迭代变强，其应用边界模糊且有弹性 [30] - “后Transformer”架构的探索核心思路之一是将循环机制与大语言模型融合，以应对逻辑推理等挑战，TRM、HRM等小规模循环模型已在特定测试中展现潜力 [14][15] - 模型能力的飞跃（如去年圣诞节前后Cursor和Claude的突飞猛进）是框架升级、后训练优化、新预训练模型等多重因素交织的结果，难以归因于单一推手 [24][25][27] - 未来突破可能源于对海量真实人类工作流数据（长达数周或数月）应用强化学习，从而让AI学会像人类学者一样总结元模式和方法论 [4][23][26]