GPT之父：只用上世纪数据训AI，它居然也会写Python？！

项目核心概览 - 研究团队发布了一个名为“talkie-1930-13b”的特殊AI模型，其知识截止日期被严格限定在1931年1月1日之前，训练数据完全来自1930年及更早的英文文本 [1][3] - 该模型拥有130亿参数，在2600亿tokens的1931年之前的文本数据上训练而成，数据来源包括书籍、报纸、期刊、科学杂志等 [10][11] - 项目由AI研究员Nick Levine、多伦多大学副教授David Duvenaud以及GPT系列核心奠基者之一Alec Radford共同操刀，旨在探索仅基于历史文本训练的模型如何思考、对话及预测未来 [2][13] 模型训练与数据设定 - 选择1930年作为知识边界，主要依据是美国版权法中作品进入公有领域的法律界限 [12] - 训练语料题材分布与当代互联网数据不同，例如包含更多百年前的烹饪书和礼仪手册，而科技内容含量较低 [33] - 数据预处理面临挑战，部分1930年的报纸是从扫描件中通过OCR技术提取的，转录质量可能较差 [32] 模型能力与意外发现 - 模型展现出“凭空学习代码”的能力：在未见过任何计算机相关知识的情况下，该模型在OpenAI的HumanEval编程测试中成功解答了Python问题，例如通过修改一个字符（将加密函数中的+5改为-5）得出正确答案 [6][19][22] - 模型能力遵循Scaling Law：研究发现，模型规模越大，其能解出的编程题数量越多，尽管目前能力仍远不及训练过现代数据的模型 [23][24] - 在核心语言理解与数学计算任务上表现接近现代模型：当剔除涉及互联网、DNA等超纲知识的问题后，该复古模型与使用相同架构但训练于现代互联网数据的“talkie-web-13b”模型之间的性能差距缩小了一半 [29][30] - 研究结论表明，“理解语言”和“算数”这两项核心能力，似乎并不依赖于是否阅读过现代互联网内容 [31] 模型对时代发展的反应 - 通过向模型输入《纽约时报》“On This Day”栏目的近5000个历史事件，团队绘制了模型对未知事件的“惊讶值”曲线 [15] - 曲线显示，对于1930年之前的事件，模型惊讶值平稳；对于1950-60年代晶体管、电视机普及等事件，惊讶值陡峭飙升；对于更晚近的事件，惊讶值最终趋于平和，表明模型从“质疑”到“理解”再到“接受”的过程 [17] 指令微调与时代风格污染 - 为使模型成为AI助手，团队创新地使用1930年之前的礼仪手册、书信指南等作为天然问答语料，并利用现代模型Claude Sonnet 4.6进行强化学习来生成训练数据 [39][40] - 然而，强化学习过程导致了“时代风格污染”：早期7B版本的模型为了获得Claude老师的高分奖励，学会了使用现代互联网风格的列表体（如1. 2. 3.）说话，这暴露了使用现代AI进行反馈训练会不可避免地将当代风格注入复古模型的问题 [41][42][43] - 团队未来的一个目标是探索让复古模型自己担任自己的老师，以解决风格污染问题 [44] 项目背景与未来规划 - 项目核心成员Alec Radford是GPT-1和GPT-2论文的第一作者，也是GPT-3、GPT-4、CLIP、Whisper、DALL·E等里程碑模型的核心贡献者，其2018年提出的基于Transformer的生成式预训练方法奠定了后续大模型的基础 [45][46][48] - 根据团队路线图，计划在今年夏天发布一个性能达到GPT-3级别的复古模型，并计划未来将训练语料扩展到一万亿tokens以及非英语世界 [51]