人类数据时代 - 财报，业绩电话会，研报，新闻

人类数据时代

搜索文档

演讲 | 强化学习之父 Sutton 隔空回应 Hinton：目前的 AI “理解不足，调参有余”

AI科技大本营· 2026-02-13 16:15

对当前AI进展的批判性思考 - 当前AI领域普遍共识是AI正以惊人速度进步，但需要对此提出质疑[6] - 大语言模型在语言运用和生成逼真图像视频方面是巨大突破，但这并非心智的本质功能，而是极度消耗算力的任务[7] - 许多新应用本质是超大规模计算和模式识别的具体功能，不代表智能的全部，有时仅为计算而被冠以“智能”之名[7] - 当前AI领域是“理解不足，调参有余”，并未真正掌握心智原理与智能法则，作为一门科学令人失望[8] - 当前主流AI模型本质是“脆弱的心智”，它们因掌握人类所有知识而显强大，但不可靠、无法专注、思维游离，在智能本质上并不强大[8] 定义“智能” - 威廉·詹姆斯定义心智特征为“通过多变的手段达到一致的目的”[11] - 艾伦·图灵的观点被解读为智能是“表现得像个人”，即通过图灵测试模仿人类行为[11] - 字典定义智能为“获取并应用知识与技能的能力”，强调了学习和获取的重要性[12] - 约翰·麦卡锡定义智能为“实现目标的能力中，涉及计算的那一部分”，强调能力、计算和实现目标[13] - 演讲者提出定义：“通过调整行为来实现目标的能力”，强调学习（调整）是智能的关键[13] - 当前AI主流观点集中在计算、模式识别和模仿人类上[14] 统一的心智科学与强化学习 - 应建立一门新的“统一心智科学”，同等适用于人类、动物和机器心智[15][16] - 强化学习可能是这门统一心智科学的开端，因为它横跨相关领域[18] - 强化学习是一种面向智能体的学习方式，通过与环境交互、从经验中学习来实现目标[20] - 强化学习比其他机器学习方法更现实、更宏大、更自主[21] - 强化学习核心是试错和延迟反馈，通过奖励信号让机器自行判断对错，接近自然界学习方式[22] - 强化学习可能是既非纯自然科学也非纯工程技术的“心智科学”雏形[23] 数据的时代 vs. 经验的时代 - 艾伦·图灵在1947年指出：“我们想要的是一台能从经验中学习的机器”[24] - 当前处于“人类数据时代”，AI通过训练预测人类的下一个词或图片标签，并通过人类专家微调[25] - 现代机器学习本质是将人类已有知识转移给机器，转移完成后机器变为静态，不再学习[26] - 人类数据时代正触及天花板，因为高质量人类数据资源（整个互联网的文本、图片和视频）已被挖掘殆尽[26] - 根本局限在于该方法无法创造新知识，仅总结互联网已有言论无法做出真正突破[26] - 需要进入“经验时代”，数据源需能随智能体能力提升而增长进化，这意味着任何静态数据集都不够[27] - 唯有从经验中——从与世界的交互中——才能获得动态数据，这是人类和动物的学习方式[27][28] 婴儿与网格世界：体验式AI原则 - “经验”指智能体与环境之间交换的数据流，而非模糊的意识流[31] - 婴儿通过不断接触新玩具、探索新事物来改变经验流并学习[31] - 生命的数据由活动生成，数据的难度自动匹配当前的理解力和技能水平[32] - 网格世界演示显示，智能体能在目标移动或出现障碍时，通过探索适应变化，学会新路径以实现目标[35] - 体验式AI的基础是智能体与世界交换信号（经验），这些信号是所有智能的基石[36] - 体验式AI的核心信号包括：观察（传感器数据）、动作（运动指令）、奖励（代表结果好坏的标量信号）[38] - 在体验式AI中，真理定义为“在这些信号中实际发生了什么”，目标定义为“让奖励信号最大化”[39] - 智能体现在于其能在多大程度上预测并控制它的经验[40] - 没有经验（如被冻结的大语言模型），智能就失去了依附对象[41] - 只有在经验中，才有明确的目标和真理[42] 现实主义的AI预测与发展阶段 - 尽管当前AI炒作引发恐惧，但其实并不强大，它们脆弱且不可靠，但这不妨碍其非常有用并创造巨大经济价值[43] - 真正的“重头戏”是创造超级智能AI以及被AI增强的超级人类，这将带来深刻变革[44] - 近十年AI发展可划分为三个阶段：模拟时代（如AlphaGo）、人类数据时代（大语言模型）、经验时代（正在进入）[50] - 经验时代将通向超人级能力，不仅仅是模仿人类，而是超越人类局限[50] AI的政治哲学：管控与合作 - 当前很多人呼吁管控AI，限制其目标、研究、算力，成立“安全研究所”，其真实意思是“控制”[45] - 呼吁对AI进行集中管控，与呼吁对人进行集中管控，其逻辑惊人地相似，都基于恐惧[46] - 应抵制基于恐惧的集中管控呼吁，未来繁荣应源于去中心化的合作，而非集中式控制[46] - 合作是世界上所有美好事物（经济、政府、社会）的源泉[46] 宇宙的四个伟大时代与人类的角色 - 从宇宙视角看，存在四个伟大时代：粒子时代、恒星时代、复制者时代、设计时代[52] - 复制者时代（如生物）的特征是事物被复制出来，无需理解原理[52][57] - 设计时代的特征是事物先存在于设计者心智中，再被创造到物理世界，如礼堂、椅子、衣服[52][57] - 设计之物比复制之物更容易改进和变异[52] - 人类是“特殊的复制者”，是将“设计”能力推向极致的复制者[52][53] - 极致的表现是设计出能够自我设计的东西，这正是AI领域所做的事[53] - 人类正在开启并实现宇宙的第四个伟大时代——设计时代，这是具有宇宙级意义的角色[54] 演讲核心总结 - 科学上：当前AI处于“人类数据时代”，虽强大但受限；正在进入更强大的“经验时代”，能持续学习新知[58] - 政治上：AI的政治就是人类的政治，应追求去中心化的合作，而非集中式控制[58] - 哲学上：AI是宇宙发展的必然下一阶段，应怀着勇气、自豪和冒险精神去拥抱它[58]

36氪· 2025-06-16 20:34

AI发展时代划分 - 当前处于从"人类数据时代"向"经验时代"转型的关键拐点所有大型语言模型依赖互联网文本和人工标注等"二手经验"训练但高质量人类数据已被快速消耗殆尽新增语料的边际价值正急剧下降 [2][5][7] - 人类数据时代特征：AI系统训练基于人类生成的文本和图像通过预测人类下一个词进行学习而非预测世界该策略已接近极限 [5][6] - 经验时代特征：智能体需通过与环境实时交互生成原生数据数据源随智能体能力提升而指数级扩张学习方式类似婴儿探索玩具或运动员赛场决策 [6][7][10] 技术实现路径 - 强化学习框架已验证可行性：AlphaGo通过模拟移动后果产生经验学习创造性策略 AlphaProof在国际数学奥林匹克竞赛中通过操作后果预测实现突破 [8][10] - 未来技术方向：智能体需建立自生奖励信号和世界模型发展高保真环境下的长期记忆体系通过高并行交互提升样本效率 [3][7][11] - 持续学习算法是关键瓶颈：当前AI尚无法实现完全从经验中学习需开发更强算法支持智能体作为世界知识的可定制接口 [11] 社会治理哲学 - 去中心化合作优于中心化控制：多元目标并存的生态系统通过分布式激励保持创新活力类比自然界不同生物拥有差异化目标的经济体系 [12][13][16] - 合作机制是核心优势：人类通过语言和金钱实现远超其他物种的合作规模但需建立制度防范作弊者（如战争、欺诈）同时避免中心化权威僵化 [13][14][16] - AI治理警示：限制AI发展的呼吁与控制人类社会的历史论调高度相似应警惕基于恐惧的单一目标束缚保持多样化追求可降低单点失效风险 [15][16] 行业演进展望 - 合成数据成为新趋势：科技公司因人类数据边际效益递减而转向合成数据领域 [2] - 里程碑案例验证路径：从AlphaGo的模拟经验到AlphaProof的现实经验显示大型语言模型正通过API接入等方式初步进入经验时代 [10] - 长期工程属性：实现超级智能需数十年持续投入属于马拉松式发展而非短期突破 [10]

腾讯研究院· 2025-06-16 17:26

AI发展拐点：从人类数据时代迈向经验时代 - 当前大型语言模型依赖互联网文本和人工标注等"二手经验"训练，但高质量人类数据已被快速消耗殆尽，新增语料的边际价值正急剧下降 [1][7] - 模型规模继续膨胀却收效递减的"规模壁垒"现象显现，大量科技公司开始转向合成数据 [1] - 智能体必须像婴儿学习玩具、足球运动员在赛场决策那样，通过与环境交互不断生成并利用第一手经验，而非单纯模仿人类旧有文本 [1][8] 经验时代的技术特征 - 智能体需要在真实或高保真模拟环境中持续运行，用环境回馈而非人类偏好作为原生奖励信号 [2] - 发展能够长期复用的世界模型与记忆体系，并通过高并行交互大幅提升样本效率 [2] - 强化学习范例（如AlphaGo、AlphaZero）已证明从模拟经验到现实经验的演进路径 [5][12] 去中心化合作的发展哲学 - "去中心化合作"优于"中心化控制"，多元目标并存的生态系统通过分布式激励与竞争协作保持创新活力 [2][16] - 让智能体和人类都保持多样化追求，能降低单点失效与僵化风险，为未来AI治理提供更具韧性的框架 [2] - 人类最大的成功是合作（如经济、市场和政府），最大的失败是合作的失败（如战争、盗窃） [16][17] AI发展的三个阶段 - 模拟时代：AlphaGo、Atari等强化学习智能体从模拟经验中学习 [12] - 人类数据时代：ChatGPT和大型语言模型依赖人类生成的数据 [12] - 经验时代：智能体通过与世界互动的经验学习，AlphaProof是早期例证 [12] 智能体的核心能力构建 - 智能体需要像婴儿那样通过感知-行动循环凭第一人称经验自我学习 [5][8] - 知识必须关于经验而非文字，智能程度取决于预测和控制输入信号（特别是奖励信号）的能力 [10] - 强化学习框架让智能体成为能够做决定、实现目标、与世界互动的一流智能体 [10]