AGI判定标准
搜索文档
哈萨比斯出的难题,GPT之父接上了:用一个知识停在1930年的模型
机器之心· 2026-04-30 12:52
项目概述 - 研究团队进行了一个有趣的项目,使用1931年以前的数据训练了一个130亿参数的模型“Talkie”,并与这个模型对话以探索其知识边界[5] - 该项目旨在测试一个AI模型是否真正理解了某些能力,还是仅仅在重复训练数据里的答案,Talkie-1930被用作一个诚实的参照系[8] - 该项目的一个深层动机是回应DeepMind创始人Demis Hassabis提出的关于AGI的硬核判定标准:一个训练数据截止到1911年的模型,能否自己推导出爱因斯坦1915年提出的广义相对论[1][16] 模型构建与数据 - Talkie的训练数据全部来自1931年以前的英文文本,包括书籍、报纸、期刊、专利、法律文书,总计2600亿个token[10] - 选择1931年作为截止点是因为在美国,此前的作品已进入公共领域,可以合法使用[10] - 训练一个复古模型面临“时间泄漏”的挑战,即1930年以前出版的作品可能包含后来添加的现代内容,早期版本曾因此出现问题[27] - 数据质量是另一个问题,历史文本的OCR识别质量较差,使用传统OCR转录文本训练的模型性能只有人工转录版本的30%,清洗后能回升到70%但仍存差距[29] - 团队正在开发一套专门针对历史文献的OCR系统,并希望将语料库扩展到超过1万亿个历史文本token,以创建一个功能与最初ChatGPT类似的GPT-3.5级别模型[29][33] 实验设计与发现 - 研究者让Claude Sonnet 4.6全天候与Talkie-1930聊天,对话记录公开[10] - 通过分析《纽约时报》“历史上的今天”近5000条描述,测量Talkie的惊讶度,结果显示1930年之前的事件其惊讶度低,之后明显爬升并在五六十年代达到顶峰[14] - 在编程能力测试中,使用HumanEval评估Talkie,让其根据随机挑选的Python函数示例编写新函数,模型在该任务上的表现随规模扩大而缓慢稳定提升[17][18] - 与现代网页数据训练的同等规模模型相比,Talkie在编程任务上仍有很大差距,其答对的题目仅限于极简单的单行程序或对示例的小幅改动[20] - Talkie在理解“逆函数”等抽象概念上显示出潜力,例如通过将示例中的加号改为减号,正确写出了旋转密码的解码函数[20] 研究动机与深层问题 - 第二个研究动机是解决模型能力评估中的“污染问题”,即难以区分模型是真正“会”还是仅仅记住了训练数据中的答案,Talkie因完全不知晓现代知识而天然绕开了此问题[17] - 第三个动机是探究数据多样性问题,当前主流大模型训练数据均源于互联网,其相似性可能影响对语言模型普遍规律的研究,Talkie提供了一个不同的数据视角[23] - 为了直观衡量Talkie,研究者训练了一个架构完全相同但使用现代网页数据集FineWeb的“现代孪生”模型进行对比[24] - 在过滤掉对Talkie“超纲”的测试题后,两个模型在语言理解和数字计算上的表现差距缩小了一半,剩余的差距可能源于历史文本OCR质量差和语料主题分布不同[24][25] 模型对齐与未来方向 - 对Talkie进行指令微调面临挑战,使用现代对话数据微调会使其失去时代特征,早期版本在强化学习后说话风格变得现代[31] - 团队从历史文本本身入手,使用礼仪手册、书信范文等旧书生成指令-回复对,构建了一套后训练流程,并使用现代AI(Claude)作为裁判进行打分,训练结束时平均分从2分升至3.4分(满分5分)[31] - 研究者承认使用现代AI做裁判本身就是一种“时代污染”,彻底干净的做法应使用Talkie的基础模型来评价其对话,这是他们下一步想尝试的方向[33] - 目前团队正在训练一个GPT-3级别的模型,并计划在今年夏天发布[33]