Workflow
通用人工智能(AGI)
icon
搜索文档
哈佛&MIT:AI能预测,但它还解释不了“why”
36氪· 2025-10-22 08:56
研究背景与核心问题 - 哈佛与MIT的研究旨在探究大语言模型是否能构建“世界模型”,而非仅进行下一个词的预测 [1] - 实验选择轨道力学作为测试场景,因其在科学史上具有代表性,可类比于AI重演开普勒发现并测试其是否学会牛顿力学 [2] - 研究关注“预测与解释脱节”这一现代AI模型的根本性局限 [4] 实验设计与方法 - 研究使用1000万个模拟太阳系坐标序列(总计200亿个token)训练一个1.09亿参数的小型Transformer模型 [1][4] - 实验设计核心是检验模型预测行星运动时,是否会利用牛顿定律还是仅依赖“特定情境的经验法则” [4] - 后续测试还扩展到当前最先进的大语言模型以及“晶格问题”和“黑白棋”等其他场景 [9][10] 主要研究发现 - AI模型能精准预测行星轨迹,预测结果几乎完美,但其推导的受力向量杂乱无章,与牛顿定律毫无关联 [4][6] - 模型并未编码出牛顿定律的世界模型,而是依赖无法推广到其他情况的经验法则 [4][6] - 当使用新的银河系样本数据测试时,模型会编码出完全不同的另一套错误的“受力定律”,错误并不一致 [7][8] - 最先进的大语言模型同样表现出精准预测与错误解释脱节的问题,即便训练数据中已包含牛顿定律 [9] 对AI行业发展的启示 - 研究结果表明当前形态的LLM不足以实现真正的科学发现,其泛化能力仅限于“所熟悉的东西,或与所熟悉的东西相像的东西” [9][11] - AI未来发展需结合“晶化智力”(已有知识技能)与“流动智力”(经验迁移能力),而非单纯追求模型规模扩大 [12] - 行业需探索新方法(如Yann LeCun的JEPA框架)让AI掌握构建世界模型的能力,从“预测机器”进阶为能理解世界运行逻辑的“思考者” [12][14] - 科学的核心问题——精准预测与理解事物运行的“为什么”——将是AI未来需要攀登的高峰 [12][13]
AI大家说 | 哈佛&MIT:AI能预测,但它还解释不了“why”
红杉汇· 2025-10-22 08:06
实验核心发现 - 哈佛与MIT的实验表明,当前AI模型在预测行星轨迹时,虽能达到高精度,但并未编码出如牛顿定律般的“世界模型”,而是依赖特定情境的经验法则[3][8] - 模型预测的受力向量与真实的万有引力定律毫无关联,且其错误模式在不同测试样本(如不同银河系)中不一致,说明其无法构建稳定的、可推广的定律体系[10] - 该“预测与解释脱节”的缺陷在“晶格问题”和“黑白棋”等其他测试场景中同样存在,模型仅根据“下一个token可能性”对状态进行分类,而非理解底层规律[11] 实验设计与背景 - 研究选择轨道力学作为测试场景,因其在科学史上具代表性,旨在观察AI是否能重演从开普勒(经验规律)到牛顿(深层原理)的科学发现过程[4][5] - 实验使用1000万个模拟太阳系坐标序列(总计200亿个token)训练一个1.09亿参数的小型Transformer模型,以探究其预测逻辑[3][8] - 研究将AI模型统称为“基础模型”,其核心是数据驱动的“输入-预测输出”映射,与能刻画数据隐含状态结构的“世界模型”存在本质区别[6] 对AI行业发展的启示 - 研究结果并非否定AI价值,但指出以当前形态,大语言模型尚不足以实现真正的科学发现,需探索新路径[12][13] - 行业未来发展的一种思路是结合“晶化智力”(已有知识)与“流动智力”(经验迁移能力),例如通过JEPA框架等新方法进行探索[13] - 行业需共同解答的核心命题是如何让AI从“预测机器”进阶为能理解世界运行逻辑的“思考者”,这决定了AI在科学史上的最终地位[14]
合合信息推出多模态文本智能技术落地方案,助力AI实现智能推理
21世纪经济报道· 2025-10-21 16:29
行业发展趋势 - 多模态大模型正成为人工智能发展的重要方向,其利用文本、图像、音频、视频等多种信息形式进行表达、理解和交流 [1][4] - 根据2025年Gartner人工智能技术成熟度曲线,多模态AI将在未来五年内成为各行业提升所有应用和软件产品功能的核心技术 [4] - 行业对AI系统的需求正从“功能实现”向“业务赋能”深化,旨在推动AI系统从辅助工具进化为具备自主决策能力的业务伙伴 [15] 技术突破与创新 - 合合信息推出“多模态文本智能技术”方案,通过文本相关空间位置理解深层语义逻辑,实现对多模态信息的“立体化综合化理解” [3] - 哈尔滨工业大学车万翔教授分享“多模态思维链”技术,将推理逻辑分解为一系列可解释的跨模态推理步骤,以生成更精准可靠的结论 [4] - 南开大学周宇教授介绍系统化的OCR幻觉缓解方案,为提升多模态大模型的可视文本感知能力提供有效路径 [4][8] - 技术方案将文本智能认知程度从语义理解拓展到类人推理及自主机器决策,形成从感知到认知再到决策的技术实现路径 [15] 应用场景与案例 - 小红书hi lab团队分享基于单视觉语言模型的多语言文档布局解析工具“dotsocr” [9] - 华中科技大学刘禹良教授介绍首个覆盖甲骨文专家破译全流程的辅助考释框架AlphaOracle,在“劳”等字的辅助破译上取得突破 [11][12] - 合合信息文本智能技术帮助用户解决复杂场景下的文档图像问题,方案已在金融、医药、教育等专业领域开展应用 [8][15] - 技术方案处理对象从传统文档延伸至多种承载文本信息的媒介,如论文、财报、视频、自然场景,实现对业务流程的智能重构 [14][15]
马斯克预测Grok 5实现AGI概率达10%
环球网资讯· 2025-10-21 12:05
公司技术进展 - xAI公司正在研发的Grok 5大型语言模型有10%的概率实现通用人工智能,且该概率呈持续上升趋势 [1] - Grok 5被视为xAI技术跃迁的关键节点,其全新架构设计或突破现有模型对海量数据的依赖,通过更高效的自我学习系统降低训练成本 [3] - xAI通过优化基于Kubernetes、Rust和JAX的自定义训练堆栈框架,在资源利用率上实现突破 [4] 公司产品迭代 - 2023年11月推出的Grok-1模型以330亿参数实现接近LLaMA 2(700亿参数)的性能,仅用一半训练资源 [3] - 2024年4月发布的多模态大模型Grok-1.5V能通过视觉信息生成Python代码,在RealWorldQA基准测试中超越同类模型 [3] 行业技术定义与对比 - 通用人工智能被定义为能够完成人类通过计算机辅助实现的所有任务的智能系统,其能力上限不会超越全体人类与计算机协同工作的总体水平 [3] - 当前主流AI模型多聚焦于特定任务优化,而通用人工智能需具备跨领域知识迁移、自主学习及创造性思维等人类核心能力 [3] - Grok 5在AI工程领域的表现被称已超越Meta AI实验室前研究负责人安德烈·卡帕斯团队提出的模型规模即性能范式 [4]
今年双11,淘宝天翻地覆
搜狐财经· 2025-10-21 10:45
淘宝天猫双11战略转型 - 本次双11是第十七个双11,但行业面临商家和消费者疲倦的挑战 [1] - 淘宝天猫作为发起者,正从流量逻辑到服务体验进行天翻地覆的变化,旨在重塑大促格局并定义未来电商大促形态 [1][4] AI技术全面赋能 - 阿里巴巴CEO吴泳铭指出,发展通用人工智能(AGI)和超级人工智能(ASI)是公司目标,AI将指数级放大人类智力杠杆 [2] - 淘宝天猫背靠全球领先技术底座,拥有10亿消费者与丰富商品库,是AI大规模应用的理想试验场 [5] - 今年是首个AI全面落地的天猫双11,AI将渗透流量分发、商品运营及用户体验各个环节 [5][10] AI在商家端的应用与成效 - 平台通过AI对20亿商品进行精准理解与组织,使流量匹配效率实现双位数增长 [6] - 具体提升包括:复杂语义下搜索相关性提升20个百分点,推荐信息流点击量提升10%,商家广告ROI提升12% [6] - 品牌经营实现全链路AI化,为所有商家累计节省数百亿成本 [6] - AI工具具体产出:AI美工月均生成2亿张图片/500万个视频,商品点击率提升10%;AI数据分析累计生成超1000万份报告,获85%商家好评;AI客服店小蜜5.0帮助商家日均降本2000万元,GMV增量1912万元 [6] AI在消费者端的应用与体验提升 - 双11全周期发放500亿元消费券,部分由AI“智惠引擎”决策发放,试点期发券转化率提升15% [7] - 平台发布多款AI导购应用,包括“AI万能搜”、“AI帮我挑”、“拍立淘”升级版、基于口碑的搜索“品类清单”、“AI试衣”及定制化“AI清单” [8] 即时零售(闪购)的整合与爆发 - 即时零售玩家入局是今年电商大促的最大变化之一,美团闪购在618实现“半小时送达” [11][12] - 淘宝闪购爆火,标志着淘宝从电商平台向“远近一体”的大消费平台跃迁 [15][16] - 本次双11有37000个品牌40万家门店接入闪购,覆盖苹果、华为等头部大牌;超400万家本地生活服务商户接入,是其参与规模最大的一场双11 [16] 闪购带来的消费利好与协同效应 - 500亿元消费券补贴同样适用于开通淘宝闪购的品牌商品,88VIP用户可使用消费券实现旗舰店正品分钟级送达 [17] - 淘宝闪购推出外卖五折活动,88VIP用户每天最高可领4张5折红包,所有用户可抽取超千万份免单权益 [17] - 双11预售首日(10月15日)数据显示,淘宝闪购在全国270个城市夜宵订单量同比增长超200%,超市便利订单增长670%,饮品等品类实现2倍增长 [21] - 3C数码、个护、服饰等行业品牌在淘宝闪购的成交额同比去年同周期增长超290% [22] 行业趋势与平台战略方向 - 阿里通过整合外卖与电商等业务,旨在打造全域大消费平台,让消费者在单一平台满足所有需求 [22] - 线上线下融合、即时需求与计划性购物结合是未来不可阻挡的趋势 [22] - 平台竞争焦点从拼价格转向拼体验、拼精准、拼便利,为商家带来更稳定效益 [24]
马斯克亲自点名Karpathy迎战Grok 5,别神话LLM,AGI还要等十年
36氪· 2025-10-21 10:21
AGI发展时间表与现状评估 - 行业专家预测实现通用人工智能仍需约10年时间 [1][3][12] - 该时间线相对于当前市场炒作氛围显得保守,但相对于怀疑论者仍属乐观预期 [17] - 专家认为比旧金山同行对AGI时间线的预测悲观5-10倍 [17] AGI实现路径的技术挑战 - 强化学习方法存在信号稀疏问题,仅通过二元对错信号进行学习效率低下 [21][23] - 模型崩塌现象阻碍大语言模型实现人类式学习能力 [2] - 系统集成与安全防护构成重大技术障碍,包括越狱和投毒等风险 [17] - 环境与评估体系匮乏,需要大量多样化高质量环境集作为训练基础 [25] 大语言模型发展现状与趋势 - 行业正处于LLM炒作的"幻灭低谷期",但将进入生产力缓慢提升的"启蒙斜坡"阶段 [7][9] - 模型发展呈现"先大后小"趋势:先扩大规模承载能力,再通过架构优化实现小型化 [29] - 智能体时代将从2025年开始,未来10年都将处于"智能体时代" [15][17] 新型学习范式探索 - 系统提示学习作为强化学习替代方案,通过编辑操作而非梯度下降实现优化 [26] - 新范式可使LLM自动生成系统提示,形成强大的新型学习机制 [26] - 记忆功能等特性已成为新学习范式的早期部署样本 [27] 人机协作模式演进 - 倡导"协作式中间态"而非全自动编程,避免产生代码沼泽和安全风险 [32] - AI编程助手应定位为"天才实习生",需保持防御性、谨慎多疑的工作态度 [32][36] - 当前工具尚未充分优化人机协作流程,用户体验存在巨大改进空间 [33] 行业应用与自动化前景 - 工作自动化程度取决于输入输出标准化、错误代价和决策频率等因素 [34] - 放射科等领域呈现人机互补模式,模型作为第二读片者提升整体质量 [34] - AGI预计将融入过去约2.5个世纪以来每年约2%的GDP增长趋势 [2]
马斯克:Grok 5 实现通用人工智能的概率为 10%,且还在上升
搜狐财经· 2025-10-21 08:26
公司动态与展望 - 埃隆・马斯克预测xAI公司即将推出的Grok 5有10%的可能性实现通用人工智能(AGI)且该概率仍在上升 [1][3] - 马斯克补充称Grok 5将是通用人工智能或至少达到与之无法区分的水平 [3] - Grok 5尚未正式发布但相关言论已大幅提升外界期待 [3] 行业背景与影响 - 截至目前全球尚无任何公司真正实现AGI尽管已有众多人工智能初创企业正积极致力于该目标 [3] - 通用人工智能(AGI)指在思维、推理及其他认知任务方面能够达到甚至超越人类智能水平的AI系统 [5] - 一旦实现AGI从机器人技术到制造业等众多行业均有望迎来显著变革与飞跃 [5] - AGI最终可能为“人工超级智能”(ASI)铺平道路其智能水平可能超过全人类智慧的总和 [5]
世界模型:机器能否理解现实?
36氪· 2025-10-20 21:01
世界模型的概念与重要性 - 世界模型是AI系统内部携带的环境表征,用于在执行任务前对预测和决策进行评估 [1] - 多位深度学习领域权威人物认为世界模型是构建真正聪明、科学且安全的AI系统不可或缺的部分 [1] - 该概念在心理学、机器人学和机器学习等领域已有数十年历史,类似于人类大脑中避免危险的本能模型 [1] 世界模型的历史渊源 - 世界模型的概念可追溯至1943年心理学家肯尼斯·克雷克提出的"外部现实小尺度模型"设想 [2] - 克雷克的设想预示了认知革命,并将认知与计算能力直接联系起来 [2] - 20世纪60年代末的SHRDLU等AI系统曾使用简易模型,但手工构建的模型难以规模化 [3] 当前AI与世界模型的现状 - 当前大语言模型展现的许多能力使世界模型成为一个颇具解释力的思路 [4] - 然而,生成式AI更像是在学习成百上千条互不关联的经验法则,而非一个自洽的整体世界模型 [4] - 研究者尝试寻找世界模型证据时,发现的是零散的启发式规则,而非连贯的表征 [4] 世界模型的优势与挑战 - 大语言模型可以在其数万亿个参数中编码大量启发式规则,通过数量实现质量 [5] - 缺乏连贯世界模型导致系统鲁棒性不足,例如当1%街道封闭时,LLM的导航能力明显崩溃 [6] - 一个鲁棒且可验证的世界模型有望消除AI幻觉、支持可靠推理并提升系统可解释性 [6] 未来发展方向 - Google DeepMind和OpenAI认为通过足够多的多模态训练数据,世界模型会在神经网络中自然形成 [7] - Meta的杨立昆则认为构建世界模型需要完全不同于生成式AI的全新架构 [7] - 构建世界模型是大型AI实验室和学术界的重点研发方向,但其具体实现方法仍属未知 [7]
Karpathy 回应争议:RL 不是真的不行,Agent 还需要十年的预测其实很乐观
Founder Park· 2025-10-20 20:45
AGI发展时间线 - AGI实现仍需约十年时间,与硅谷AI圈普遍乐观情绪相比预测保守5-10倍[10] - 2025年可能是智能体元年,但接下来的十年都将属于"智能体时代"[10] - 当前LLM虽取得巨大进展,但距离实现"在任意岗位都比人类更值得雇佣"的实体仍有大量基础工作需完成[11][12] LLM认知缺陷与改进方向 - 当前LLM过度依赖记忆,人类记忆能力差反而可能是有益的正则化特性[19][70] - 模型需要先变大以承载能力,再通过架构、训练范式和数据蒸馏向更小、更专注的认知内核收敛[19] - 未来认知核心可能精简至十亿参数级别,专注于思考算法而非记忆知识[76][78] 强化学习局限性 - 强化学习像"通过吸管获取监督信号",信号/计算量比非常糟糕[15] - RL过程噪声大,信噪比低且易受干扰,正确步骤可能被抑制而错误步骤可能被鼓励[15] - 未来可能出现替代学习范式,智能体交互和系统提示学习是更有前景的方向[15] 智能体发展现状 - 当前智能体存在认知缺陷,缺乏多模态能力、持续学习能力和计算机操作能力[23] - 过度追求完全自主智能体可能导致软件质量下降、漏洞增多和安全风险[20] - 更现实的协作模式是LLM分块工作,解释代码,证明正确性,在不确定时与人类协作[20] 训练范式演进 - 完整训练流程包含基础模型自动补全、指令微调和强化学习三个层次,但需要第四、五层等新机制[16][18] - 预训练通过预测互联网下一个token来"预装"智能,类似于糟糕的进化过程[13][31] - 动物通过进化预装大量智能,与LLM训练方式存在本质区别[13][28] 技术发展路径 - AI发展是计算的延伸,所有方面包括算法、数据、硬件都需要全面改进[42][43] - Transformer架构可能持续存在,但会有更多注意力机制和稀疏MLP等改进[42] - 数据集质量将大幅提升,当前互联网训练数据包含大量垃圾内容[77][82] 经济影响 - AGI定义是可完成任何具有经济价值任务且性能达到或超过人类的系统[85] - 知识型工作约占经济10%-20%,是AI替代的首要目标[86] - 呼叫中心等标准化任务可能最先实现80%自动化,人类负责监督和剩余20%工作[87]
Codeforces难题不够刷?谢赛宁等造了个AI出题机,能生成原创编程题
36氪· 2025-10-20 16:15
研究背景与意义 - 大型语言模型正朝着通用人工智能目标发展,测试其生成问题的能力变得越来越重要,尤其是在高级编程任务中的应用 [1] - 为编程竞赛出题需要比解决问题更深刻的算法理解,能评估对底层算法设计原则、数据结构和复杂性权衡的更深层次理解 [2] - 更好的出题能力将带来更严谨的竞赛编程基准测试,现有测试数据集可能存在高误报率和高漏报率的问题 [2] - 成功提出新颖挑战可为模型自我完善和通用人工智能铺平道路,同时验证模型在复杂软件栈中的部署情况 [3] AutoCode框架概述 - AutoCode是一个系统性框架,可在闭环多角色系统中使用大型语言模型,自动化竞赛编程问题创建和评估的整个生命周期 [3] - 该框架由来自十个机构的研究者共同开发,包含5位共同一作,作者名单中包括谢赛宁等著名研究者 [5] - 框架核心是一个增强的验证器-生成器-检查器框架,在测试用例生成方面实现了最先进的可靠性 [6] - 框架还包括用于生成高质量新问题的创新过程,该过程从"种子问题"开始,在有前景的方向上启发大型语言模型 [6] 测试用例生成技术 - 验证器是系统基石,功能是确保任何给定输入都严格遵守问题描述中指定的所有约束,对于最小化漏报率至关重要 [5] - 生成器采用多样化的策略创建广泛的输入,旨在减少误报率,生成器产生的任何无效案例都会被验证器过滤掉 [8] - 检查器通过将参赛者输出与参考解法输出进行比较来评估参赛者,对于交互式任务,交互器会与参赛者程序进行多轮对话 [9][10] - 团队特别关注降低误报率,将测试用例与测试数据区分开来,后者还包括评估所需的检查器和交互器程序 [11] 基准测试与性能评估 - 主要基准包含7538个问题,来源于著名现有数据集的交集:CodeContests+、CodeContests、HardTests和TACO [14] - 第二个基准包含720个来自Codeforces的近期有评分比赛问题,是完全未经过滤的,包括难以处理的交互式问题 [16] - 在7538个问题的基准上,AutoCode与官方判决的一致性达到91.1%,误报率大幅降低至3.7%,漏报率降低至14.1% [16] - 在更具挑战性的720个Codeforces问题基准上,AutoCode实现了98.7%的一致性,验证了方法在现代困难问题上的有效性 [19] 问题生成能力 - 问题生成框架建立在稳健测试生成框架之上,引入关键的双重验证协议以确保在没有人工干预的情况下实现正确性 [23] - 方法是通过增、删、改"种子问题"的某些条件来生成新问题,同时提供高效参考解法和暴力解法 [23] - 利用暴力解法为高效解法提供可靠的事实标准,实现自动化正确性校验,将参考解法正确率从86%提高到了94% [24] - 经过筛选后,超过80%的问题被标注为具有足够质量可作为模型训练数据,23%的问题涉及新颖或创造性设计 [24] 大型语言模型在问题生成中的表现 - 大型语言模型能够生成它们自己无法解决的可解问题 [27] - 大型语言模型倾向于通过组合现有问题框架和强调知识与实现来创造新问题,更擅长"知识重组"而非原创创新 [29][32] - 新问题的难度增幅往往大于种子问题,且当相应种子问题难度适中时,生成问题的质量最高 [32] - 生成问题的难度和相较于种子问题的难度增益,是比大型语言模型自我评估更好的问题质量指标 [32]