AGI判定标准 - 财报，业绩电话会，研报，新闻

AGI判定标准

搜索文档

哈萨比斯出的难题，GPT之父接上了：用一个知识停在1930年的模型

机器之心· 2026-04-30 12:52

项目概述 - 研究团队进行了一个有趣的项目，使用1931年以前的数据训练了一个130亿参数的模型“Talkie”，并与这个模型对话以探索其知识边界[5] - 该项目旨在测试一个AI模型是否真正理解了某些能力，还是仅仅在重复训练数据里的答案，Talkie-1930被用作一个诚实的参照系[8] - 该项目的一个深层动机是回应DeepMind创始人Demis Hassabis提出的关于AGI的硬核判定标准：一个训练数据截止到1911年的模型，能否自己推导出爱因斯坦1915年提出的广义相对论[1][16] 模型构建与数据 - Talkie的训练数据全部来自1931年以前的英文文本，包括书籍、报纸、期刊、专利、法律文书，总计2600亿个token[10] - 选择1931年作为截止点是因为在美国，此前的作品已进入公共领域，可以合法使用[10] - 训练一个复古模型面临“时间泄漏”的挑战，即1930年以前出版的作品可能包含后来添加的现代内容，早期版本曾因此出现问题[27] - 数据质量是另一个问题，历史文本的OCR识别质量较差，使用传统OCR转录文本训练的模型性能只有人工转录版本的30%，清洗后能回升到70%但仍存差距[29] - 团队正在开发一套专门针对历史文献的OCR系统，并希望将语料库扩展到超过1万亿个历史文本token，以创建一个功能与最初ChatGPT类似的GPT-3.5级别模型[29][33] 实验设计与发现 - 研究者让Claude Sonnet 4.6全天候与Talkie-1930聊天，对话记录公开[10] - 通过分析《纽约时报》“历史上的今天”近5000条描述，测量Talkie的惊讶度，结果显示1930年之前的事件其惊讶度低，之后明显爬升并在五六十年代达到顶峰[14] - 在编程能力测试中，使用HumanEval评估Talkie，让其根据随机挑选的Python函数示例编写新函数，模型在该任务上的表现随规模扩大而缓慢稳定提升[17][18] - 与现代网页数据训练的同等规模模型相比，Talkie在编程任务上仍有很大差距，其答对的题目仅限于极简单的单行程序或对示例的小幅改动[20] - Talkie在理解“逆函数”等抽象概念上显示出潜力，例如通过将示例中的加号改为减号，正确写出了旋转密码的解码函数[20] 研究动机与深层问题 - 第二个研究动机是解决模型能力评估中的“污染问题”，即难以区分模型是真正“会”还是仅仅记住了训练数据中的答案，Talkie因完全不知晓现代知识而天然绕开了此问题[17] - 第三个动机是探究数据多样性问题，当前主流大模型训练数据均源于互联网，其相似性可能影响对语言模型普遍规律的研究，Talkie提供了一个不同的数据视角[23] - 为了直观衡量Talkie，研究者训练了一个架构完全相同但使用现代网页数据集FineWeb的“现代孪生”模型进行对比[24] - 在过滤掉对Talkie“超纲”的测试题后，两个模型在语言理解和数字计算上的表现差距缩小了一半，剩余的差距可能源于历史文本OCR质量差和语料主题分布不同[24][25] 模型对齐与未来方向 - 对Talkie进行指令微调面临挑战，使用现代对话数据微调会使其失去时代特征，早期版本在强化学习后说话风格变得现代[31] - 团队从历史文本本身入手，使用礼仪手册、书信范文等旧书生成指令-回复对，构建了一套后训练流程，并使用现代AI（Claude）作为裁判进行打分，训练结束时平均分从2分升至3.4分（满分5分）[31] - 研究者承认使用现代AI做裁判本身就是一种“时代污染”，彻底干净的做法应使用Talkie的基础模型来评价其对话，这是他们下一步想尝试的方向[33] - 目前团队正在训练一个GPT-3级别的模型，并计划在今年夏天发布[33]