通用人工智能(AGI)
搜索文档
万条推文“怒轰”、估值下跌, OpenAI被误导性“突破”反噬!陶哲轩:有实力,但方向错了?
AI前线· 2025-10-20 13:23
整理 | 华卫 "搬起自己的 GPT 石头砸了自己的脚。"这是 Meta 首席 AI 科学家 Yann LeCun 对 OpenAI 研究员们的最新评价。 事件起因是,此前这些研究员因 GPT-5 的一项新数学"突破"而高调庆祝,但在受到整个 AI 社区质疑后又迅速撤回了该说法。连谷歌 DeepMind 首席执 行官 Demis Hassabis 也对此提出批评,称其沟通存在疏漏。 GPT-5"突破" 被证明是一个错误 取得"突破"的消息,最早是由前微软副总裁、现 OpenAI 研究科学家 Sebastien Bubeck 放出。他在 X 上称,两位研究人员在周末借助 GPT-5 找到了 10 个埃尔德什问题(Erdős problems)的答案。埃尔德什问题是匈牙利数学家 Paul Erdős 提出的一系列数学问题的统称,其中既包含未解决的难题,也有 已解决的问题,著名案例包括 "不同距离问题"(Distinct Distances Problem)与 "偏差问题"(Discrepancy Problem)。这类问题以难度高著称,常成为 学界深入研究的对象,部分问题甚至设有现金奖励,鼓励研究者攻克。 10 ...
Codeforces难题不够刷?谢赛宁等造了个AI出题机,能生成原创编程题
机器之心· 2025-10-20 12:50
研究背景与意义 - 大型语言模型正朝着通用人工智能迈进,测试其生成问题的能力变得日益重要,尤其是在高级编程任务的应用中[1] - 为编程竞赛出题需要比解决问题更深刻的算法理解,旨在评估对底层算法设计原则、数据结构和复杂性权衡的更深层次理解[2] - 提升出题能力将带来更严谨的竞赛编程基准测试,现有测试数据集存在高误报率和高漏报率的问题,造成扭曲的评估环境[2] - 成功提出新颖挑战可能为模型的自我完善和通用人工智能铺平道路,同时验证模型在复杂软件栈中的部署情况[3] AutoCode框架概述 - AutoCode是一个系统性框架,可在闭环、多角色系统中使用大型语言模型,自动化竞赛编程问题创建和评估的整个生命周期[3] - 该框架由验证器-生成器-检查器构成,验证器确保输入严格遵守问题描述的所有约束,是系统基石[8] - 生成器采用多样化策略创建广泛输入以减少误报率,无效案例会被验证器过滤[10] - 检查器用于评估参赛者输出,与参考解法输出进行比较,交互器则处理交互式任务的多轮对话判决[12][13] - 框架特别关注降低误报率,为强化学习从验证结果提供高质量的验证器[14] 测试用例生成性能 - 在包含7538个问题的基准上,AutoCode与官方判决的一致性达到91.1%,较之前方法最高81.0%有显著提升[21] - AutoCode将误报率大幅降低至3.7%,漏报率降低至14.1%,这两项指标相较于当前最先进技术均减少约50%[21] - 在更具挑战性的包含720个近期Codeforces问题的基准上,AutoCode实现了98.7%的一致性,验证了其在现代、困难问题上的有效性[24] - 通过消融实验验证了框架各组成部分的有效性,完整框架性能最优[26] 问题生成能力与发现 - 问题生成框架引入双重验证协议,利用暴力解法作为可靠的事实标准,实现自动化正确性校验[29] - 双重验证协议成功过滤掉27%的易错问题,将大型语言模型提供的参考解法正确率从86%提高至94%[30] - 超过80%的生成问题被标注为具有足够质量可作为模型训练数据,23%的问题涉及新颖或创造性设计[30] - 大型语言模型能够生成它们自己无法解决的可解问题,更擅长知识重组而非原创创新[34] - 生成问题的难度和相较于种子问题的难度增益,是比模型自我评估更好的问题质量指标[34] 研究总结与影响 - AutoCode在测试用例生成方面实现了最先进的可靠性,并能生成达到竞赛质量的全新问题[36] - 模型擅长算法知识的重组,但难以引入真正新颖的推理范式或无懈可击的样例设计[37] - 难度和难度增益可作为问题质量的可靠智能体信号,为实现自我博弈提供可扩展路径[38]
OpenAI 生意做大了,奥尔特曼口碑更差了
36氪· 2025-10-20 11:56
公司战略与运营 - OpenAI计划在12月为成年用户引入情色内容,采用类似美国电影分级制度的策略,对青少年用户则维持严格政策[1] - 针对用户对GPT-5模型过于理性、缺乏共情的批评,公司将在新版ChatGPT中恢复类似GPT-4o的个性,支持真人式对话、使用表情符号和扮演朋友角色[3] - 首席执行官山姆·奥尔特曼承认其管理思维从投资者视角转向运营商视角,强调垂直整合的重要性,以苹果公司为典范[9] - 公司的三大目标是成为个人AI订阅服务商、构建海量基础设施以及实现通用人工智能(AGI)[8] 财务状况与融资 - 公司最新估值达到5000亿美元,成为全球估值最高的独角兽[5] - 2024年预计营收为130亿美元,但净亏损达数十亿美元,预计到2029年才能产生正向现金流[6] - 年化经常性收入为130亿美元,其中约70%(即91亿美元)来自ChatGPT订阅费,标准版每月收费20美元[8] - 公司通过股权交易进行融资,例如向英伟达采购芯片,而英伟达对OpenAI的股权投资又用于购买芯片,形成绑定关系[7] 基础设施投资与规划 - 公司计划建设总计10GW的美国数据中心,与甲骨文合作的“星际之门”项目价值5000亿美元[5] - 与英伟达采购至少10GW的AI芯片,与AMD合作部署6GW算力,并与博通共同开发能耗容量为10GW的AI芯片[5] - 每建设1GW的AI数据中心需投资500-600亿美元,公司未来带动的总投资额高达1万亿美元[6] - 长期目标是到2033年建成250GW的新计算能力,按当前标准估算耗资将超过10万亿美元[7] 用户与市场表现 - ChatGPT拥有超过8亿常规用户,但付费用户比例仅为5%,公司目标是将付费用户比例翻倍[8] - GPT-5发布后,大量用户通过话题标签keep 4o表达不满,希望保留情感连接更强的GPT-4o模型[3] - 用户对内容分级制度的公平性提出质疑,担忧“问题用户”的判定标准模糊,且由单一公司推行分级制度可能缺乏公正性[3] 行业观点与潜在风险 - 亚马逊创始人贝佐斯指出人工智能领域存在行业泡沫,巨头公司股价与企业基本面脱节[12] - 当前AI热潮被类比为1990年代的互联网基础设施狂潮,当时电信行业因过度投资超1000亿美元铺设光纤而在泡沫破裂中严重受损[11] - 市场担忧AI基础设施供给增长远大于需求增长,回报可能高度集中,且无法确定投资回收的时间和方式[9] - GPT-5被视为渐进式改革,模型改进速度低于预期,开发成本高于上一代,需要更高回报来证明支出的合理性[10]
与院士、企业高管共话智能共生时代,“有为青年公开课”启幕
北京日报客户端· 2025-10-19 09:50
活动概况 - 中国移动主办的“动感地带有为青年公开课”首场活动于10月18日在清华大学蒙民伟音乐厅举行,主题为“智能共生时代” [1] 人工智能行业趋势 - 中国工程院院士张亚勤阐述AI大模型的五个发展方向,并指出智能时代将带来百倍于移动互联时代的发展机遇 [3] - 张亚勤提及通用人工智能(AGI)可能在15-20年内实现,并通过“新图灵测试” [3] 机器人技术发展 - 宇树科技联合创始人陈立指出未来2-5年智能机器人技术的重心在于四足/人形机器人,其将引领下一代硬件潮流并逐步融入大众日常生活 [5] - 宇树科技的人形机器人在活动现场展示,具备灵活的步态和快速反应能力 [5] 活动互动与未来计划 - 活动现场设置多个互动体验区,包括宇树科技机器人展区、中国移动AI合拍机体验区、AI视频彩铃体验区等 [9] - 公开课将于10月25日和11月8日走进其他高校,探讨“低空经济新蓝图”和“智行未来”等主题 [11]
马斯克:AGI三五年内实现
搜狐财经· 2025-10-18 22:57
马斯克对通用人工智能(AGI)的预测 - 公司CEO埃隆・马斯克预估Grok 5实现AGI的概率为10%且该概率还在上升[2] - 马斯克表示AGI能够完成人类借助计算机所完成的一切任务但智能程度不会比所有人类加上计算机的综合强[5] - 马斯克预测AGI大概还需要三到五年实现[5] 行业竞争动态 - 马斯克调侃Grok 5在AI工程方面比加拿大专家安德烈・卡帕斯更强[6] - 公司劲敌OpenAI CEO山姆・奥尔特曼曾在5月表示愿意与马斯克化解矛盾、重修旧好共同推动AGI发展[6]
卡帕西:强化学习很糟糕,但其他所有方法都更糟
量子位· 2025-10-18 17:30
AGI发展时间框架 - 通用人工智能至少还需要十年时间才能达到理想状态[5][6][10] - 当前智能体系统在智能水平、多模态能力和复杂任务操作方面存在明显局限[8] - 智能体需要具备持续学习能力并解决认知架构缺陷才能实现真正协作[9] 大语言模型技术局限 - 现有大语言模型存在认知缺陷,容易陷入编程范式思维定势[15] - 模型训练数据导致过度追求生产级标准代码,造成代码库膨胀和复杂度增加[15] - 业界对大语言模型能力存在过度夸大,实际仍需大量改进[16] 强化学习技术评估 - 强化学习方法存在严重缺陷,但其他替代方法表现更差[18] - 强化学习通过正确结果反向强化整个解题路径的做法充满噪声且不合理[20] - 当前系统缺乏人类式的复杂复盘机制,仅依赖正确错误二元判断[21][23] AGI经济影响预测 - AGI将延续现有2%的GDP增长趋势,不会产生突然的技术跳跃[5][29] - AGI替代人类工作将采用渐进式自动化模式,实现自主性滑块分配[26] - 智力爆炸已通过历史GDP指数增长体现,AGI只是自动化趋势的延续[28] 自动驾驶技术挑战 - 自动驾驶技术从演示到产品的差距极大,失败代价高昂[30][31] - 可靠性每增加一个9(如90%到99%)都需要大量工作[32] - 真实产品需要应对各种边缘情况,特斯拉五年仅达到两到三位9的可靠性[32] 教育领域应用前景 - 理想的教育系统应提供个性化导师体验,能够快速判断学生知识水平[36] - 优秀导师能提供适度挑战,既不太难也不太简单[36] - 当前大语言模型尚无法实现真正个性化教学,需要构建完整课程体系[36]
图灵奖得主答21:AGI世界人类的价值在于创造力和想象力
21世纪经济报道· 2025-10-17 22:52
通用人工智能的定义与能力 - 通用人工智能被定义为能够在任何任务上胜过人类的机器 [1] - 即使人工智能在所有任务上胜过人类,也不意味着其与人类同样有智慧 [1] 人类在AGI时代的核心价值 - 人类的价值在于创造力和想象力,能够组合出无数种解决方案 [1] - 机器不可能比人类更聪明 [1] 人工智能对社会经济的影响 - AI在产生和应用知识的能力上可与人类竞争,可能对个体身份产生深远影响 [1] - AI技术将重塑世界,影响经济和社会组织 [1] - AI的收益和潜在风险成正比 [1]
AI终端新拐点已至 自进化能力成破局关键
财联社· 2025-10-17 16:01
行业变革拐点 - AI终端生态成为行业变革的新拐点,智能手机正从"Smart Phone"向"AI iPhone"跃迁 [1] - 在新一轮全球AI竞争中,中国力量正逐步增强话语权,终端产业有望迈入以"中国定义"为标志的新阶段 [3] - 大语言模型已从聊天工具演变为能规划、决策的智能体,但静态模型的核心瓶颈使得AI智能体自进化成为业内关注焦点 [4] 自进化AI技术突破 - Google DeepMind在2025年5月发布的AlphaEvolve智能体首次破解56年未解数学难题,在数学、机器学习、硬件设计等领域取得突破性进展 [4] - 自进化被认为是LLM走向AGI的关键能力,也是AI终端面向未来的核心竞争力 [5] - 荣耀Magic8系列以端侧自进化AI技术,驱动AI终端从被动执行指令的工具转化为主动探索未知、与人类协同进化的智慧伙伴 [7] 荣耀AI产品与生态 - YOYO智能体完成再次升级,成为具备自主学习与持续进化能力的AI"生命体" [7] - 70亿参数的MagicGUI大模型以91.5%准确率实现多模态深度理解,场景自动执行能力从200个跃升至超3000个 [7] - 构建了手机厂商中最全面、最开放的AI服务生态,接入超过4000个来自头部互联网平台的"专业服务帮手" [7] 荣耀战略与投入 - 荣耀在MWC 2025上发布阿尔法战略,宣布从智能手机制造商向全球领先的AI终端生态公司转型 [9] - 计划未来五年投入100亿美元(约合人民币720亿元),研发支出占营收比重将超过15% [9] - "阿尔法战略"明确"端侧AI为核心、以人为本释放人类潜能"的方向,打破行业"唯云端论"的路径依赖 [9] 市场表现与增长 - Counterpoint数据显示,荣耀在Q3前八周市场份额显著回升,位列中国市场第五 [13] - 2025年第二季度,荣耀在拉美智能手机市场出货量大幅增长70%,达到创纪录的290万部,位列第四 [13] - 荣耀在欧洲市场稳居前五,出货量同比增长11% [13] 合作与行业影响 - 荣耀与高通共研深耕新一代AI与芯片底层技术,让硬件释放超越参数本身的更大潜能 [8] - 荣耀与高通的合作引发海外权威媒体广泛报道,被评价为是在探索"下一代手机定义" [10] - 标志着中国企业实现了从"技术输出"到"标准与叙事定义"的关键跨越 [12]
按照Bengio等大佬的AGI新定义,GPT-5才实现了不到10%
机器之心· 2025-10-17 12:09
AGI定义框架 - 由Yoshua Bengio、埃里克・施密特、Gary Marcus等学者与行业领袖联手提出一个全面、可测试的AGI定义框架[1] - 该框架将AGI定义为一种能够匹敌甚至超越受过良好教育的成年人的认知多功能性和熟练程度的人工智能[3] - 定义强调通用智能不仅需要专业化表现,还需具备人类认知技能的广度和深度[4] 量化评估方法 - 以卡特尔-霍恩-卡罗尔认知能力理论为基础,这是人类智力最经实证验证的模型[6] - 使用用于测试人类的认知测试系统来测试人工智能系统,得出标准化的“通用智力指数”分数[7] - 该框架包含十项核心认知分量,每项等量加权10%,以覆盖主要的认知领域[9] GPT模型核心能力评估 - 在一般知识方面,GPT-4总分为8%,GPT-5为9%[14] - 在阅读与写作能力方面,GPT-4总分为6%,GPT-5为10%[15] - 在数学能力方面,GPT-4总分为4%,GPT-5为10%[16] - 在现场即时推理能力方面,GPT-4总分为0%,GPT-5为7%[17] - 在工作记忆方面,GPT-4总分为2%,GPT-5为4%[18] - 在长期记忆存储方面,GPT-4和GPT-5总分均为0%[19] - 在长期记忆检索方面,GPT-4和GPT-5总分均为4%[20] - 在视觉处理方面,GPT-4总分为0%,GPT-5为4%[21] - 在听觉处理方面,GPT-4总分为0%,GPT-5为6%[22] 当前AI系统瓶颈 - 当代AI系统的认知结构呈现高度“锯齿状”不均衡特征[25] - 长期记忆存储是当前最显著的瓶颈之一,得分几乎接近0%[25] - 视觉推理方面的缺陷阻碍了AI智能体与复杂数字环境进行有效交互的能力[26] - 模型存在“能力扭曲”,利用强项弥补弱点,制造出脆弱的“通用智能幻觉”[27][28] 能力扭曲的具体表现 - 依赖巨大的上下文窗口来弥补长期记忆存储的缺失,但效率低且计算成本高[29] - 通过检索增强生成缓解长期记忆提取的不精确表现,但这掩盖了AI记忆的深层弱点[30][31] - 误将“能力扭曲”视为真正的认知广度会导致对AGI到来时间的误判[32] 认知能力的相互依赖 - 智能的十个测量维度高度相互依赖,复杂认知任务几乎从不依靠单一领域完成[37] - 解决高阶数学问题同时依赖数学能力与即时推理,理解电影需整合听觉加工、视觉加工与工作记忆[37] - 不同的测验组合往往共同考察多个能力,反映出通用智能的整体性特征[38] 最终评估结果 - GPT-4的最终AGI分数为27%,GPT-5为58%[50] - 当前前沿LLM模型离AGI还相距甚远,尤其在基础认知机制上存在显著缺陷[24][50] - 该框架提供了一个具体的量化尺度,既展现AI的迅速进步,也揭示距离真正AGI的巨大差距[50]
创历史!百度“蒸汽机”让AI视频可“边改边看”!科创人工智能ETF华夏(589010) 盘初弱势震荡,芯片算力方向成盘中亮点!
每日经济新闻· 2025-10-17 05:52
科创人工智能ETF(589010)市场表现 - 截至9点48分早盘小幅回调0.07% 开盘后短暂冲高至1.452元后震荡回落 整体在1.44元附近维持整理 暂未脱离前一交易日区间 [1] - 成分股方面30只中上涨7只 下跌23只 个股分化明显 寒武纪 道通科技 芯原股份领涨超2% 海天瑞声 奥比中光 恒玄科技领跌 显示AI算力与智能硬件板块内部轮动 [1] - 流动性方面成交额达3136万元 成交量2170万份 交投平稳 [1] 人工智能技术进展 - 百度宣布视频生成模型百度蒸汽机再次升级 突破传统AI视频生成10秒左右时长限制 行业首次实现AI长视频实时交互生成 生成速度超越国内主流视频生成模型 [1] - 用户只需上传单张图片与一段提示词即可启动视频生成流程 并能实时预览模型推理全部内容 在生成过程中可随时暂停或在任意节点修改提示词 实现对视频剧情 画面 转场的实时控制 [1] 中美人工智能发展路径 - 中国优先部署成本低 易跨行业扩展的应用人工智能 强调通过"AI+"推动人工智能融入科研与产业 目标在2030年实现全面赋能增长 [2] - 美国专注于将原始能力推向极限的通用人工智能(AGI) 两种愿景代表不同发展路径的正面交锋 [2] - 美国在GPT-5受挫后其通用人工智能发展路径已遇瓶颈 而中国的AI应用路线正显现成功迹象 [2] 科创人工智能ETF(589010)产品特征 - 紧密跟踪上证科创板人工智能指数 覆盖全产业链优质企业 兼具高研发投入与政策红利支持 [2] - 20%涨跌幅与中小盘弹性助力捕捉AI产业"奇点时刻" [2]