通用人工智能(AGI)
搜索文档
马斯克:Grok 5 实现通用人工智能的概率为 10%,且还在上升
搜狐财经· 2025-10-21 08:26
公司动态与展望 - 埃隆・马斯克预测xAI公司即将推出的Grok 5有10%的可能性实现通用人工智能(AGI)且该概率仍在上升 [1][3] - 马斯克补充称Grok 5将是通用人工智能或至少达到与之无法区分的水平 [3] - Grok 5尚未正式发布但相关言论已大幅提升外界期待 [3] 行业背景与影响 - 截至目前全球尚无任何公司真正实现AGI尽管已有众多人工智能初创企业正积极致力于该目标 [3] - 通用人工智能(AGI)指在思维、推理及其他认知任务方面能够达到甚至超越人类智能水平的AI系统 [5] - 一旦实现AGI从机器人技术到制造业等众多行业均有望迎来显著变革与飞跃 [5] - AGI最终可能为“人工超级智能”(ASI)铺平道路其智能水平可能超过全人类智慧的总和 [5]
世界模型:机器能否理解现实?
36氪· 2025-10-20 21:01
世界模型的概念与重要性 - 世界模型是AI系统内部携带的环境表征,用于在执行任务前对预测和决策进行评估 [1] - 多位深度学习领域权威人物认为世界模型是构建真正聪明、科学且安全的AI系统不可或缺的部分 [1] - 该概念在心理学、机器人学和机器学习等领域已有数十年历史,类似于人类大脑中避免危险的本能模型 [1] 世界模型的历史渊源 - 世界模型的概念可追溯至1943年心理学家肯尼斯·克雷克提出的"外部现实小尺度模型"设想 [2] - 克雷克的设想预示了认知革命,并将认知与计算能力直接联系起来 [2] - 20世纪60年代末的SHRDLU等AI系统曾使用简易模型,但手工构建的模型难以规模化 [3] 当前AI与世界模型的现状 - 当前大语言模型展现的许多能力使世界模型成为一个颇具解释力的思路 [4] - 然而,生成式AI更像是在学习成百上千条互不关联的经验法则,而非一个自洽的整体世界模型 [4] - 研究者尝试寻找世界模型证据时,发现的是零散的启发式规则,而非连贯的表征 [4] 世界模型的优势与挑战 - 大语言模型可以在其数万亿个参数中编码大量启发式规则,通过数量实现质量 [5] - 缺乏连贯世界模型导致系统鲁棒性不足,例如当1%街道封闭时,LLM的导航能力明显崩溃 [6] - 一个鲁棒且可验证的世界模型有望消除AI幻觉、支持可靠推理并提升系统可解释性 [6] 未来发展方向 - Google DeepMind和OpenAI认为通过足够多的多模态训练数据,世界模型会在神经网络中自然形成 [7] - Meta的杨立昆则认为构建世界模型需要完全不同于生成式AI的全新架构 [7] - 构建世界模型是大型AI实验室和学术界的重点研发方向,但其具体实现方法仍属未知 [7]
Karpathy 回应争议:RL 不是真的不行,Agent 还需要十年的预测其实很乐观
Founder Park· 2025-10-20 20:45
AGI发展时间线 - AGI实现仍需约十年时间,与硅谷AI圈普遍乐观情绪相比预测保守5-10倍[10] - 2025年可能是智能体元年,但接下来的十年都将属于"智能体时代"[10] - 当前LLM虽取得巨大进展,但距离实现"在任意岗位都比人类更值得雇佣"的实体仍有大量基础工作需完成[11][12] LLM认知缺陷与改进方向 - 当前LLM过度依赖记忆,人类记忆能力差反而可能是有益的正则化特性[19][70] - 模型需要先变大以承载能力,再通过架构、训练范式和数据蒸馏向更小、更专注的认知内核收敛[19] - 未来认知核心可能精简至十亿参数级别,专注于思考算法而非记忆知识[76][78] 强化学习局限性 - 强化学习像"通过吸管获取监督信号",信号/计算量比非常糟糕[15] - RL过程噪声大,信噪比低且易受干扰,正确步骤可能被抑制而错误步骤可能被鼓励[15] - 未来可能出现替代学习范式,智能体交互和系统提示学习是更有前景的方向[15] 智能体发展现状 - 当前智能体存在认知缺陷,缺乏多模态能力、持续学习能力和计算机操作能力[23] - 过度追求完全自主智能体可能导致软件质量下降、漏洞增多和安全风险[20] - 更现实的协作模式是LLM分块工作,解释代码,证明正确性,在不确定时与人类协作[20] 训练范式演进 - 完整训练流程包含基础模型自动补全、指令微调和强化学习三个层次,但需要第四、五层等新机制[16][18] - 预训练通过预测互联网下一个token来"预装"智能,类似于糟糕的进化过程[13][31] - 动物通过进化预装大量智能,与LLM训练方式存在本质区别[13][28] 技术发展路径 - AI发展是计算的延伸,所有方面包括算法、数据、硬件都需要全面改进[42][43] - Transformer架构可能持续存在,但会有更多注意力机制和稀疏MLP等改进[42] - 数据集质量将大幅提升,当前互联网训练数据包含大量垃圾内容[77][82] 经济影响 - AGI定义是可完成任何具有经济价值任务且性能达到或超过人类的系统[85] - 知识型工作约占经济10%-20%,是AI替代的首要目标[86] - 呼叫中心等标准化任务可能最先实现80%自动化,人类负责监督和剩余20%工作[87]
Codeforces难题不够刷?谢赛宁等造了个AI出题机,能生成原创编程题
36氪· 2025-10-20 16:15
研究背景与意义 - 大型语言模型正朝着通用人工智能目标发展,测试其生成问题的能力变得越来越重要,尤其是在高级编程任务中的应用 [1] - 为编程竞赛出题需要比解决问题更深刻的算法理解,能评估对底层算法设计原则、数据结构和复杂性权衡的更深层次理解 [2] - 更好的出题能力将带来更严谨的竞赛编程基准测试,现有测试数据集可能存在高误报率和高漏报率的问题 [2] - 成功提出新颖挑战可为模型自我完善和通用人工智能铺平道路,同时验证模型在复杂软件栈中的部署情况 [3] AutoCode框架概述 - AutoCode是一个系统性框架,可在闭环多角色系统中使用大型语言模型,自动化竞赛编程问题创建和评估的整个生命周期 [3] - 该框架由来自十个机构的研究者共同开发,包含5位共同一作,作者名单中包括谢赛宁等著名研究者 [5] - 框架核心是一个增强的验证器-生成器-检查器框架,在测试用例生成方面实现了最先进的可靠性 [6] - 框架还包括用于生成高质量新问题的创新过程,该过程从"种子问题"开始,在有前景的方向上启发大型语言模型 [6] 测试用例生成技术 - 验证器是系统基石,功能是确保任何给定输入都严格遵守问题描述中指定的所有约束,对于最小化漏报率至关重要 [5] - 生成器采用多样化的策略创建广泛的输入,旨在减少误报率,生成器产生的任何无效案例都会被验证器过滤掉 [8] - 检查器通过将参赛者输出与参考解法输出进行比较来评估参赛者,对于交互式任务,交互器会与参赛者程序进行多轮对话 [9][10] - 团队特别关注降低误报率,将测试用例与测试数据区分开来,后者还包括评估所需的检查器和交互器程序 [11] 基准测试与性能评估 - 主要基准包含7538个问题,来源于著名现有数据集的交集:CodeContests+、CodeContests、HardTests和TACO [14] - 第二个基准包含720个来自Codeforces的近期有评分比赛问题,是完全未经过滤的,包括难以处理的交互式问题 [16] - 在7538个问题的基准上,AutoCode与官方判决的一致性达到91.1%,误报率大幅降低至3.7%,漏报率降低至14.1% [16] - 在更具挑战性的720个Codeforces问题基准上,AutoCode实现了98.7%的一致性,验证了方法在现代困难问题上的有效性 [19] 问题生成能力 - 问题生成框架建立在稳健测试生成框架之上,引入关键的双重验证协议以确保在没有人工干预的情况下实现正确性 [23] - 方法是通过增、删、改"种子问题"的某些条件来生成新问题,同时提供高效参考解法和暴力解法 [23] - 利用暴力解法为高效解法提供可靠的事实标准,实现自动化正确性校验,将参考解法正确率从86%提高到了94% [24] - 经过筛选后,超过80%的问题被标注为具有足够质量可作为模型训练数据,23%的问题涉及新颖或创造性设计 [24] 大型语言模型在问题生成中的表现 - 大型语言模型能够生成它们自己无法解决的可解问题 [27] - 大型语言模型倾向于通过组合现有问题框架和强调知识与实现来创造新问题,更擅长"知识重组"而非原创创新 [29][32] - 新问题的难度增幅往往大于种子问题,且当相应种子问题难度适中时,生成问题的质量最高 [32] - 生成问题的难度和相较于种子问题的难度增益,是比大型语言模型自我评估更好的问题质量指标 [32]
万条推文“怒轰”、估值下跌, OpenAI被误导性“突破”反噬!陶哲轩:有实力,但方向错了?
AI前线· 2025-10-20 13:23
整理 | 华卫 "搬起自己的 GPT 石头砸了自己的脚。"这是 Meta 首席 AI 科学家 Yann LeCun 对 OpenAI 研究员们的最新评价。 事件起因是,此前这些研究员因 GPT-5 的一项新数学"突破"而高调庆祝,但在受到整个 AI 社区质疑后又迅速撤回了该说法。连谷歌 DeepMind 首席执 行官 Demis Hassabis 也对此提出批评,称其沟通存在疏漏。 GPT-5"突破" 被证明是一个错误 取得"突破"的消息,最早是由前微软副总裁、现 OpenAI 研究科学家 Sebastien Bubeck 放出。他在 X 上称,两位研究人员在周末借助 GPT-5 找到了 10 个埃尔德什问题(Erdős problems)的答案。埃尔德什问题是匈牙利数学家 Paul Erdős 提出的一系列数学问题的统称,其中既包含未解决的难题,也有 已解决的问题,著名案例包括 "不同距离问题"(Distinct Distances Problem)与 "偏差问题"(Discrepancy Problem)。这类问题以难度高著称,常成为 学界深入研究的对象,部分问题甚至设有现金奖励,鼓励研究者攻克。 10 ...
Codeforces难题不够刷?谢赛宁等造了个AI出题机,能生成原创编程题
机器之心· 2025-10-20 12:50
研究背景与意义 - 大型语言模型正朝着通用人工智能迈进,测试其生成问题的能力变得日益重要,尤其是在高级编程任务的应用中[1] - 为编程竞赛出题需要比解决问题更深刻的算法理解,旨在评估对底层算法设计原则、数据结构和复杂性权衡的更深层次理解[2] - 提升出题能力将带来更严谨的竞赛编程基准测试,现有测试数据集存在高误报率和高漏报率的问题,造成扭曲的评估环境[2] - 成功提出新颖挑战可能为模型的自我完善和通用人工智能铺平道路,同时验证模型在复杂软件栈中的部署情况[3] AutoCode框架概述 - AutoCode是一个系统性框架,可在闭环、多角色系统中使用大型语言模型,自动化竞赛编程问题创建和评估的整个生命周期[3] - 该框架由验证器-生成器-检查器构成,验证器确保输入严格遵守问题描述的所有约束,是系统基石[8] - 生成器采用多样化策略创建广泛输入以减少误报率,无效案例会被验证器过滤[10] - 检查器用于评估参赛者输出,与参考解法输出进行比较,交互器则处理交互式任务的多轮对话判决[12][13] - 框架特别关注降低误报率,为强化学习从验证结果提供高质量的验证器[14] 测试用例生成性能 - 在包含7538个问题的基准上,AutoCode与官方判决的一致性达到91.1%,较之前方法最高81.0%有显著提升[21] - AutoCode将误报率大幅降低至3.7%,漏报率降低至14.1%,这两项指标相较于当前最先进技术均减少约50%[21] - 在更具挑战性的包含720个近期Codeforces问题的基准上,AutoCode实现了98.7%的一致性,验证了其在现代、困难问题上的有效性[24] - 通过消融实验验证了框架各组成部分的有效性,完整框架性能最优[26] 问题生成能力与发现 - 问题生成框架引入双重验证协议,利用暴力解法作为可靠的事实标准,实现自动化正确性校验[29] - 双重验证协议成功过滤掉27%的易错问题,将大型语言模型提供的参考解法正确率从86%提高至94%[30] - 超过80%的生成问题被标注为具有足够质量可作为模型训练数据,23%的问题涉及新颖或创造性设计[30] - 大型语言模型能够生成它们自己无法解决的可解问题,更擅长知识重组而非原创创新[34] - 生成问题的难度和相较于种子问题的难度增益,是比模型自我评估更好的问题质量指标[34] 研究总结与影响 - AutoCode在测试用例生成方面实现了最先进的可靠性,并能生成达到竞赛质量的全新问题[36] - 模型擅长算法知识的重组,但难以引入真正新颖的推理范式或无懈可击的样例设计[37] - 难度和难度增益可作为问题质量的可靠智能体信号,为实现自我博弈提供可扩展路径[38]
OpenAI 生意做大了,奥尔特曼口碑更差了
36氪· 2025-10-20 11:56
公司战略与运营 - OpenAI计划在12月为成年用户引入情色内容,采用类似美国电影分级制度的策略,对青少年用户则维持严格政策[1] - 针对用户对GPT-5模型过于理性、缺乏共情的批评,公司将在新版ChatGPT中恢复类似GPT-4o的个性,支持真人式对话、使用表情符号和扮演朋友角色[3] - 首席执行官山姆·奥尔特曼承认其管理思维从投资者视角转向运营商视角,强调垂直整合的重要性,以苹果公司为典范[9] - 公司的三大目标是成为个人AI订阅服务商、构建海量基础设施以及实现通用人工智能(AGI)[8] 财务状况与融资 - 公司最新估值达到5000亿美元,成为全球估值最高的独角兽[5] - 2024年预计营收为130亿美元,但净亏损达数十亿美元,预计到2029年才能产生正向现金流[6] - 年化经常性收入为130亿美元,其中约70%(即91亿美元)来自ChatGPT订阅费,标准版每月收费20美元[8] - 公司通过股权交易进行融资,例如向英伟达采购芯片,而英伟达对OpenAI的股权投资又用于购买芯片,形成绑定关系[7] 基础设施投资与规划 - 公司计划建设总计10GW的美国数据中心,与甲骨文合作的“星际之门”项目价值5000亿美元[5] - 与英伟达采购至少10GW的AI芯片,与AMD合作部署6GW算力,并与博通共同开发能耗容量为10GW的AI芯片[5] - 每建设1GW的AI数据中心需投资500-600亿美元,公司未来带动的总投资额高达1万亿美元[6] - 长期目标是到2033年建成250GW的新计算能力,按当前标准估算耗资将超过10万亿美元[7] 用户与市场表现 - ChatGPT拥有超过8亿常规用户,但付费用户比例仅为5%,公司目标是将付费用户比例翻倍[8] - GPT-5发布后,大量用户通过话题标签keep 4o表达不满,希望保留情感连接更强的GPT-4o模型[3] - 用户对内容分级制度的公平性提出质疑,担忧“问题用户”的判定标准模糊,且由单一公司推行分级制度可能缺乏公正性[3] 行业观点与潜在风险 - 亚马逊创始人贝佐斯指出人工智能领域存在行业泡沫,巨头公司股价与企业基本面脱节[12] - 当前AI热潮被类比为1990年代的互联网基础设施狂潮,当时电信行业因过度投资超1000亿美元铺设光纤而在泡沫破裂中严重受损[11] - 市场担忧AI基础设施供给增长远大于需求增长,回报可能高度集中,且无法确定投资回收的时间和方式[9] - GPT-5被视为渐进式改革,模型改进速度低于预期,开发成本高于上一代,需要更高回报来证明支出的合理性[10]
与院士、企业高管共话智能共生时代,“有为青年公开课”启幕
北京日报客户端· 2025-10-19 09:50
活动概况 - 中国移动主办的“动感地带有为青年公开课”首场活动于10月18日在清华大学蒙民伟音乐厅举行,主题为“智能共生时代” [1] 人工智能行业趋势 - 中国工程院院士张亚勤阐述AI大模型的五个发展方向,并指出智能时代将带来百倍于移动互联时代的发展机遇 [3] - 张亚勤提及通用人工智能(AGI)可能在15-20年内实现,并通过“新图灵测试” [3] 机器人技术发展 - 宇树科技联合创始人陈立指出未来2-5年智能机器人技术的重心在于四足/人形机器人,其将引领下一代硬件潮流并逐步融入大众日常生活 [5] - 宇树科技的人形机器人在活动现场展示,具备灵活的步态和快速反应能力 [5] 活动互动与未来计划 - 活动现场设置多个互动体验区,包括宇树科技机器人展区、中国移动AI合拍机体验区、AI视频彩铃体验区等 [9] - 公开课将于10月25日和11月8日走进其他高校,探讨“低空经济新蓝图”和“智行未来”等主题 [11]
马斯克:AGI三五年内实现
搜狐财经· 2025-10-18 22:57
马斯克对通用人工智能(AGI)的预测 - 公司CEO埃隆・马斯克预估Grok 5实现AGI的概率为10%且该概率还在上升[2] - 马斯克表示AGI能够完成人类借助计算机所完成的一切任务但智能程度不会比所有人类加上计算机的综合强[5] - 马斯克预测AGI大概还需要三到五年实现[5] 行业竞争动态 - 马斯克调侃Grok 5在AI工程方面比加拿大专家安德烈・卡帕斯更强[6] - 公司劲敌OpenAI CEO山姆・奥尔特曼曾在5月表示愿意与马斯克化解矛盾、重修旧好共同推动AGI发展[6]
卡帕西:强化学习很糟糕,但其他所有方法都更糟
量子位· 2025-10-18 17:30
AGI发展时间框架 - 通用人工智能至少还需要十年时间才能达到理想状态[5][6][10] - 当前智能体系统在智能水平、多模态能力和复杂任务操作方面存在明显局限[8] - 智能体需要具备持续学习能力并解决认知架构缺陷才能实现真正协作[9] 大语言模型技术局限 - 现有大语言模型存在认知缺陷,容易陷入编程范式思维定势[15] - 模型训练数据导致过度追求生产级标准代码,造成代码库膨胀和复杂度增加[15] - 业界对大语言模型能力存在过度夸大,实际仍需大量改进[16] 强化学习技术评估 - 强化学习方法存在严重缺陷,但其他替代方法表现更差[18] - 强化学习通过正确结果反向强化整个解题路径的做法充满噪声且不合理[20] - 当前系统缺乏人类式的复杂复盘机制,仅依赖正确错误二元判断[21][23] AGI经济影响预测 - AGI将延续现有2%的GDP增长趋势,不会产生突然的技术跳跃[5][29] - AGI替代人类工作将采用渐进式自动化模式,实现自主性滑块分配[26] - 智力爆炸已通过历史GDP指数增长体现,AGI只是自动化趋势的延续[28] 自动驾驶技术挑战 - 自动驾驶技术从演示到产品的差距极大,失败代价高昂[30][31] - 可靠性每增加一个9(如90%到99%)都需要大量工作[32] - 真实产品需要应对各种边缘情况,特斯拉五年仅达到两到三位9的可靠性[32] 教育领域应用前景 - 理想的教育系统应提供个性化导师体验,能够快速判断学生知识水平[36] - 优秀导师能提供适度挑战,既不太难也不太简单[36] - 当前大语言模型尚无法实现真正个性化教学,需要构建完整课程体系[36]