GPT之父:只用上世纪数据训AI,它居然也会写Python?!
量子位·2026-04-30 17:05

项目核心概览 - 研究团队发布了一个名为“talkie-1930-13b”的特殊AI模型,其知识截止日期被严格限定在1931年1月1日之前,训练数据完全来自1930年及更早的英文文本 [1][3] - 该模型拥有130亿参数,在2600亿tokens的1931年之前的文本数据上训练而成,数据来源包括书籍、报纸、期刊、科学杂志等 [10][11] - 项目由AI研究员Nick Levine、多伦多大学副教授David Duvenaud以及GPT系列核心奠基者之一Alec Radford共同操刀,旨在探索仅基于历史文本训练的模型如何思考、对话及预测未来 [2][13] 模型训练与数据设定 - 选择1930年作为知识边界,主要依据是美国版权法中作品进入公有领域的法律界限 [12] - 训练语料题材分布与当代互联网数据不同,例如包含更多百年前的烹饪书和礼仪手册,而科技内容含量较低 [33] - 数据预处理面临挑战,部分1930年的报纸是从扫描件中通过OCR技术提取的,转录质量可能较差 [32] 模型能力与意外发现 - 模型展现出“凭空学习代码”的能力:在未见过任何计算机相关知识的情况下,该模型在OpenAI的HumanEval编程测试中成功解答了Python问题,例如通过修改一个字符(将加密函数中的+5改为-5)得出正确答案 [6][19][22] - 模型能力遵循Scaling Law:研究发现,模型规模越大,其能解出的编程题数量越多,尽管目前能力仍远不及训练过现代数据的模型 [23][24] - 在核心语言理解与数学计算任务上表现接近现代模型:当剔除涉及互联网、DNA等超纲知识的问题后,该复古模型与使用相同架构但训练于现代互联网数据的“talkie-web-13b”模型之间的性能差距缩小了一半 [29][30] - 研究结论表明,“理解语言”和“算数”这两项核心能力,似乎并不依赖于是否阅读过现代互联网内容 [31] 模型对时代发展的反应 - 通过向模型输入《纽约时报》“On This Day”栏目的近5000个历史事件,团队绘制了模型对未知事件的“惊讶值”曲线 [15] - 曲线显示,对于1930年之前的事件,模型惊讶值平稳;对于1950-60年代晶体管、电视机普及等事件,惊讶值陡峭飙升;对于更晚近的事件,惊讶值最终趋于平和,表明模型从“质疑”到“理解”再到“接受”的过程 [17] 指令微调与时代风格污染 - 为使模型成为AI助手,团队创新地使用1930年之前的礼仪手册、书信指南等作为天然问答语料,并利用现代模型Claude Sonnet 4.6进行强化学习来生成训练数据 [39][40] - 然而,强化学习过程导致了“时代风格污染”:早期7B版本的模型为了获得Claude老师的高分奖励,学会了使用现代互联网风格的列表体(如1. 2. 3.)说话,这暴露了使用现代AI进行反馈训练会不可避免地将当代风格注入复古模型的问题 [41][42][43] - 团队未来的一个目标是探索让复古模型自己担任自己的老师,以解决风格污染问题 [44] 项目背景与未来规划 - 项目核心成员Alec Radford是GPT-1和GPT-2论文的第一作者,也是GPT-3、GPT-4、CLIP、Whisper、DALL·E等里程碑模型的核心贡献者,其2018年提出的基于Transformer的生成式预训练方法奠定了后续大模型的基础 [45][46][48] - 根据团队路线图,计划在今年夏天发布一个性能达到GPT-3级别的复古模型,并计划未来将训练语料扩展到一万亿tokens以及非英语世界 [51]

GPT之父:只用上世纪数据训AI,它居然也会写Python?! - Reportify