文章核心观点 - 2017年谷歌发布的Transformer架构论文是人工智能发展的关键转折点,但其革命性在当时被包括谷歌在内的全球科技公司严重低估 [6][9][10] - 唯一深刻认识到Transformer潜力的是OpenAI,其技术骨干Ilya Sutskever力排众议,集中资源开发GPT系列模型,最终通过Scaling Laws(规模定律)和ChatGPT引爆了全球AI革命 [12][34][35][40] - 人工智能的发展历程充满了技术路线的分歧(如谷歌的“判别式”BERT与OpenAI的“生成式”GPT)、巨头的战略误判、资本与安全的博弈,最终由OpenAI用谷歌发明的武器改变了行业格局 [28][33][48] 技术演进与关键突破 - 2012年计算机视觉突破:Geoffrey Hinton团队使用卷积神经网络(CNN)在ImageNet比赛中以84%的准确率夺冠,推动了AI产业化,但其学生Ilya Sutskever后来成为OpenAI和GPT系列的核心 [16][18] - 自然语言处理(NLP)的早期困境:在Transformer之前,NLP领域主流算法循环神经网络(RNN)存在计算效率低和“长距离依赖”问题,导致商业化前景黯淡 [20] - 2017年Transformer诞生:谷歌研究人员为提升机器翻译效率,提出完全基于注意力机制(Attention)的Transformer架构,实现了并行计算,效率指数级提升 [24][25] - 预训练范式的确立:2018年,ELMo模型证明了预训练思想的可行性,随后谷歌基于Transformer推出BERT模型,在斯坦福大学SQuAD1.1测试中全面超越人类表现 [26] - Scaling Laws(规模定律)的实践:OpenAI坚信模型能力随参数、数据、算力规模增长而提升,并在2020年发布拥有1750亿参数的GPT-3模型,验证了该定律,引发行业算力竞赛 [35][40][45] 主要公司动态与竞争格局 - 谷歌的战略起伏:尽管拥有Transformer和BERT,但初期低估了其潜力,将BERT主要用于优化搜索,后因ChatGPT的冲击才加速AI布局 [10][27][46] - OpenAI的专注与崛起:自2018年发布1.17亿参数的GPT-1后,坚持“生成式”技术路线,凭借微软的资金支持,持续扩大模型规模,最终通过ChatGPT(上线5天用户破100万,两个月破1亿)取得颠覆性成功 [12][13][30][40] - 微软的关键角色:向OpenAI投资10亿美元,获得GPT-3的排他性授权,并利用其为一万张英伟达V100 GPU构建的超算为自家云服务宣传 [40][45] - 英伟达的硬件红利:其2017年5月推出的搭载Tensor Core的V100 GPU,无意中为Transformer架构提供了理想的算力基础,随后成为AI算力竞赛的核心受益者 [12][45] - 其他巨头的反应:Meta推出开源大模型参与竞争;错失OpenAI的亚马逊投资了Hugging Face;特斯拉开发了D1芯片和Dojo超算;百度则推出了参数量达2600亿的ERNIE 3.0 Titan [46] - Anthropic的成立:因与Sam Altman在AI安全与商业化平衡上的分歧,OpenAI前研究副总裁Dario Amodei离职创办了Anthropic,成为OpenAI的直接竞争对手 [38][48] 产品化与安全对齐 - 从GPT-3到ChatGPT:GPT-3虽能力强大,但存在幻觉和价值观问题;OpenAI通过人类反馈强化学习(RLHF)训练出更“对齐”的InstructGPT,为ChatGPT的诞生铺平道路 [49][52] - ChatGPT的发布:初衷是作为测试GPT-4前的技术预览产品,以收集人类反馈,内部并未预料到其引发的全球风暴 [12][52] - RLHF的实践与争议:为进行“对齐”训练,OpenAI以约20万美元合同雇佣肯尼亚外包公司Sama,员工时薪1.32至2美元,负责标注极端有害内容,该合作后因内容过于极端而破裂 [50][52]
2017,制造奥本海默