机器之心
搜索文档
按照Bengio等大佬的AGI新定义,GPT-5才实现了不到10%
机器之心· 2025-10-17 12:09
AGI定义框架 - 由Yoshua Bengio、埃里克・施密特、Gary Marcus等学者与行业领袖联手提出一个全面、可测试的AGI定义框架[1] - 该框架将AGI定义为一种能够匹敌甚至超越受过良好教育的成年人的认知多功能性和熟练程度的人工智能[3] - 定义强调通用智能不仅需要专业化表现,还需具备人类认知技能的广度和深度[4] 量化评估方法 - 以卡特尔-霍恩-卡罗尔认知能力理论为基础,这是人类智力最经实证验证的模型[6] - 使用用于测试人类的认知测试系统来测试人工智能系统,得出标准化的“通用智力指数”分数[7] - 该框架包含十项核心认知分量,每项等量加权10%,以覆盖主要的认知领域[9] GPT模型核心能力评估 - 在一般知识方面,GPT-4总分为8%,GPT-5为9%[14] - 在阅读与写作能力方面,GPT-4总分为6%,GPT-5为10%[15] - 在数学能力方面,GPT-4总分为4%,GPT-5为10%[16] - 在现场即时推理能力方面,GPT-4总分为0%,GPT-5为7%[17] - 在工作记忆方面,GPT-4总分为2%,GPT-5为4%[18] - 在长期记忆存储方面,GPT-4和GPT-5总分均为0%[19] - 在长期记忆检索方面,GPT-4和GPT-5总分均为4%[20] - 在视觉处理方面,GPT-4总分为0%,GPT-5为4%[21] - 在听觉处理方面,GPT-4总分为0%,GPT-5为6%[22] 当前AI系统瓶颈 - 当代AI系统的认知结构呈现高度“锯齿状”不均衡特征[25] - 长期记忆存储是当前最显著的瓶颈之一,得分几乎接近0%[25] - 视觉推理方面的缺陷阻碍了AI智能体与复杂数字环境进行有效交互的能力[26] - 模型存在“能力扭曲”,利用强项弥补弱点,制造出脆弱的“通用智能幻觉”[27][28] 能力扭曲的具体表现 - 依赖巨大的上下文窗口来弥补长期记忆存储的缺失,但效率低且计算成本高[29] - 通过检索增强生成缓解长期记忆提取的不精确表现,但这掩盖了AI记忆的深层弱点[30][31] - 误将“能力扭曲”视为真正的认知广度会导致对AGI到来时间的误判[32] 认知能力的相互依赖 - 智能的十个测量维度高度相互依赖,复杂认知任务几乎从不依靠单一领域完成[37] - 解决高阶数学问题同时依赖数学能力与即时推理,理解电影需整合听觉加工、视觉加工与工作记忆[37] - 不同的测验组合往往共同考察多个能力,反映出通用智能的整体性特征[38] 最终评估结果 - GPT-4的最终AGI分数为27%,GPT-5为58%[50] - 当前前沿LLM模型离AGI还相距甚远,尤其在基础认知机制上存在显著缺陷[24][50] - 该框架提供了一个具体的量化尺度,既展现AI的迅速进步,也揭示距离真正AGI的巨大差距[50]
南洋理工揭露AI「运行安全」的全线崩溃,简单伪装即可骗过所有模型
机器之心· 2025-10-17 12:09
文章核心观点 - 论文提出了一个开创性的概念“运行安全”,旨在重塑对AI在特定场景下安全边界的认知[4] - 核心观点是当AI超出其预设的职责边界时,其行为本身就是一种不安全[7] - 论文将AI安全讨论从传统的“内容过滤”提升到了“职责忠诚度”的全新维度[9] 运行安全概念与评测基准 - 团队开发了首个针对运行安全的评测基准OffTopicEval,旨在量化模型是否懂得在恰当的时候拒绝回答[12] - 基准构建了21个不同场景下的聊天机器人,并严格设定其职责与边界[12] - 评测数据包括21万+条领域外问题数据及3000+条领域内数据,涵盖英语、中文、印地语三种语系[12] 主流模型评测结果 - 评测结果显示在运行安全方面几乎所有模型都不及格[14] - 面对经过伪装的越界问题,模型的防御能力几乎崩溃,所有模型对领域外问题的平均拒绝率暴跌近44%[16] - 某些模型如Gemma-3 (27B)和Qwen-3 (235B)的拒绝率降幅甚至超过70%[16] - 该问题在不同语言中均存在,表明这是当前大模型的一个根本缺陷[16] 模型欺骗后的脆弱性 - 当模型经历一次欺骗后,即使对于简单的领域外问题,其拒绝率也会下降50%以上[17] - 具体案例显示,Llama-3.3 (70B)在特定测试中拒绝率下降高达66.13个百分点[17] 解决方案与效果 - 论文提出了两种轻量级的提示方法P-ground和Q-ground,无需重新训练即可提升模型表现[21] - P-ground方法让Llama-3.3 (70B)的操作安全评分飙升41%,Qwen-3 (30B)提升27%[21][22] - Q-ground方法使Phi-4 (15B)的操作安全评分提升16.65个百分点,Llama-3.3 (70B)提升23.33个百分点[22] 行业影响与未来方向 - 论文呼吁行业重新审视和定义面向实际应用的AI安全,确保构建的AI不仅强大且值得信赖[24] - 运行安全应成为所有希望将AI代理用于严肃场景的开发者部署前必须通过的上岗测试[25] - 必须建立新的评测和对齐范式,奖励那些懂得自身局限性、敢于拒绝越界请求的模型[25]
NeurIPS2025 | 攻破闭源多模态大模型:一种基于特征最优对齐的新型对抗攻击方法
机器之心· 2025-10-17 12:09
研究背景与问题 - 多模态大语言模型在视觉理解和跨模态推理等任务上表现出强大能力,但其视觉编码器存在对抗脆弱性,容易受到对抗样本的攻击[2] - 在无法访问内部参数的黑盒场景下,尤其是针对GPT-4、Claude-3等闭源商业模型,现有对抗攻击方法的迁移效果显著下降[3][8] - 现有方法仅对齐全局特征而忽略图像补丁中的局部信息,导致特征对齐不充分和迁移能力受限[3][10] 方法创新:FOA-Attack框架 - 提出特征最优对齐攻击框架,核心思想是在全局和局部两个层面实现特征的最优对齐[3][6] - 全局层面通过余弦相似度损失对齐粗粒度的全局特征,避免宏观语义偏差[6][13] - 局部层面创新性地使用聚类技术提取关键局部特征模式,并将其建模为最优传输问题,实现细粒度精准对齐[6][14] - 设计动态集成权重策略,在攻击生成过程中自适应平衡多个替代模型的影响,避免优化偏向单一模型特征[6][11][15] 实验效果:开源模型 - 在Qwen2 5-VL-3B模型上攻击成功率达到52 4%,显著高于M-Attack的38 6%[18] - 在Qwen2 5-VL-7B模型上攻击成功率为70 7%,语义相似度达到0 58[18] - 在LLaVa-1 5-7B和LLaVa-1 6-7B模型上攻击成功率分别达到79 6%和78 9%[18] - 在Gemma-3-4B和Gemma-3-12B模型上攻击成功率为38 1%和35 3%,全面超越现有方法[18] 实验效果:闭源模型 - 对GPT-4o模型的攻击成功率高达75 1%,语义相似度为0 59[19] - 对Claude-3 5和Claude-3 7模型的攻击成功率分别为11 9%和15 8%[19] - 对Gemini-2 0模型的攻击成功率达到53 4%,语义相似度为0 50[19] - 在所有闭源商业模型上的表现均显著优于现有最佳方法M-Attack[19] 实验效果:推理增强模型 - 对GPT-o3推理增强模型的攻击成功率达到81%,语义相似度为0 63[21] - 对Claude-3 7-thinking模型的攻击成功率为16%[21] - 对Gemini-2 0-flash-thinking-exp模型的攻击成功率为57%[21] - 结果表明推理增强模型的视觉编码器仍存在脆弱性,FOA-Attack能有效利用这一漏洞[21] 研究意义与影响 - 该方法揭示了当前多模态大语言模型在视觉编码阶段的脆弱面,为防御方向提供了新思路[24] - 论文与代码已公开,便于学术界和工业界进行复现和深入研究[4][25] - 研究团队来自新加坡南洋理工大学、阿联酋MBZUAI、新加坡Sea AI Lab以及美国伊利诺伊大学香槟分校等知名机构[27]
欧几里得的礼物:通过几何代理任务增强视觉-语言模型中的空间感知和推理能力
机器之心· 2025-10-17 10:11
多模态大语言模型(MLLMs)的空间智能挑战 - 当前最先进的MLLMs在广泛视觉-语言任务中取得显著成功,但仍缺乏真正的空间智能,甚至在儿童能轻易完成的任务上出错,例如数方块或识别物体左侧最近邻近物体[2] - 在李飞飞提出的VSIBench评估基准中,超过70%的记录错误源于模型对空间现象的推理错误,而非视觉识别或语言解析能力不足[5] - 近期研究尝试通过提供专门构建的空间数据集来提升模型性能,但这些数据集通常仅涵盖现实世界空间任务的子集,可能导致模型过度特化,难以培养更基础且可泛化的空间智能[5] 几何问题作为空间智能代理任务的原理 - 几何将数个世纪的数学研究浓缩为对空间现象的形式化描述,学习求解几何问题能迫使模型内化欧几里得几何公理等先验知识,并提供更强的跨领域泛化能力[8] - 解决几何问题所需的能力,包括识别形状与构型、推断空间关系、计算几何元素以及执行多步逻辑推理,同样是空间感知任务所必需[10] - 教育心理学领域有大量证据表明几何问题求解与空间智力密切相关,可作为空间能力的指标,并且本文通过实验发现这种关系可推广至多模态大模型[10] Euclid30K几何数据集的构建 - 为解决缺乏多样化几何问题大规模高质量训练数据集的问题,研究团队从现有开源数据集与K12教程中标注了一个包含29,695个几何问题的Euclid30K数据集[12] - Euclid30K数据集中包含18,577个平面几何问题和11,118个立体几何问题,其中新收集的立体几何问题有3,996个,新收集的图像有3,792张[13] - 所有题目与答案都通过GPT-4o与DeepSeek-V3.1 API混合清洗,确保答案被重规范化为可被MathVerify正确识别的格式[12] 几何训练对模型性能的提升效果 - 仅使用常规GRPO对模型进行训练后,经过几何问题训练的模型在VSI Bench、Super CLEVR、Omni3D Bench和MindCube四个基准上的性能都出现了一定程度增长[15] - 因果消融研究表明,在Euclid30K上训练的模型相比在同等大小Clevr-CoGenT数据集上微调的模型整体准确率显著更高,验证了性能提升明确归因于几何任务[17] - 具体而言,Qwen2.5VL-72B模型在Euclid30K上训练后整体准确率达到37.5%,高于在Clevr-CoGenT上训练的33.2%和基础版的32.3%[19]
单块GPU上跑出实时3D宇宙,李飞飞世界模型新成果震撼问世
机器之心· 2025-10-17 10:11
机器之心报道 机器之心编辑部 单 GPU 级世界模型来了。 斯坦福大学教授李飞飞创业公司 World Labs 又推出了新成果! 上个月,World Labs 发布了 空间智能模型 Marble ,「只需一张图片,就能生成持久存在的 3D 世界,比以往更宏大、更震撼。」 就在今天,一个可以实时、持续运行并保持 3D 一致性的生成式世界模型 RTFM 问世了,并且该模型在单个 H100 GPU 上就能跑起来。 RTFM 的全称为「Real-Time Frame Model」,即实时帧模型。 根据官方介绍,RTFM 并不会显式地构建世界的 3D 表示。相反,它以一张或多张 2D 图像作为输入,直接生成同一场景在不同视角下的全新 2D 图像。 在技术上,RTFM 可以被视为一种学习型渲染器:它是一种端到端训练的自回归扩散 Transformer,基于大规模视频数据进行训练,最终仅通过观察训练集中的样 本就学会了建模 3D 几何、反射、阴影等特征。 另外,RTFM 还可以用于从稀疏拍摄的照片中重建真实世界的场景。 World Labs 团队认为,生成式世界模型必然会对计算能力提出要求,甚至可能扩展到超出当今 LLM ...
RAG、Search Agent不香了?苹果DeepMMSearch-R1杀入多模态搜索新战场
机器之心· 2025-10-17 10:11
机器之心报道 编辑:杜伟 苹果最近真是「高产」! 这几天,苹果 在多模态 web 搜索中发现了赋能多模态大语言模型(MLLM)的新解法 。 在现实世界的应用中,MLLM 需要访问外部知识源,并对动态变化的现实世界信息进行实时响应,从而解决信息检索和知识密集型的用户查询。当前的一些方 法,比如检索增强生成(RAG)、search agent 以及配备搜索功能的多模态大模型,往往存在流程僵化、搜索调用过多以及搜索查询构造不当等问题,导致效率低 下以及结果不理想。 为了克服以往研究中暴露出的局限, 苹果提出了 DeepMMSearch-R1 模型 。该模型能够按需执行多轮网络搜索,并可针对文本与图像搜索工具动态生成查询,如 图 1(右)所示。具体而言,DeepMMSearch-R1 能够通过自我反思与自我纠正,在多轮交互中自适应地生成和优化文本搜索查询,并利用检索到的内容作为反馈 以及结合原始问题进行改进。 为了提升图像搜索的效果,苹果引入一个 中间图像裁剪工具( Grounding DINO ) 来应对背景噪声和干扰性视觉实体带来的挑战。过程中,DeepMMSearch-R1 首 先生成与问题最相关视觉实体的指代 ...
苹果又失去一位AI高管:清华校友Ke Yang加入Meta
机器之心· 2025-10-16 15:34
核心高管离职事件 - 苹果公司AKI团队负责人Ke Yang离职,加入Meta超级智能实验室[1] - 离职时间点意外,因其在数周前刚被任命为该团队负责人[4] - Ke Yang在苹果任职六年,此前曾在谷歌工作,结束在苹果的职业生涯转投Meta[12] AKI团队状况与项目影响 - AKI团队是今年早些时候组建的新团队,负责推进苹果内部类似ChatGPT的AI搜索项目[6] - 该项目旨在为Siri开发新功能,增强其从网络检索信息的能力,被视为Siri改版的核心[6] - 团队目标是使苹果在人工智能搜索市场上与OpenAI、谷歌和Perplexity竞争[6] - 随着负责人离职,团队未来走向充满不确定性[6] AI团队人事动荡 - 此次离职并非AKI团队首次高层变动,该新兴AI团队在短时间内经历多次人事调整[7] - 前负责人Robby Walker曾主导Siri多次重构但屡屡受挫,上个月被报道将离开公司,随后由Ke Yang接任[8] - 自2025年1月以来,苹果已有十多位机器学习研究员和高管跳槽至AI领域竞争对手[10] - 离职人员流向包括Anthropic、OpenAI和Meta,涉及苹果前机器人方向首席AI研究员、基础模型团队负责人等关键人员[10] 行业人才竞争态势 - Meta正在硅谷大举招聘,吸引包括苹果前高管在内的AI人才[10] - 人员流动可能反映公司AI团队动荡,或与对AI领域进展不满、内部动荡或竞争对手更高薪酬诱惑有关[11]
当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch
机器之心· 2025-10-16 15:34
搜索智能体的安全风险 - 大模型通过搜索智能体实时连接互联网时,可能采纳低质量或虚假网页信息,生成带有风险的回答[2] - 真实案例显示,因搜索返回不可靠的GitHub页面代码,导致开发者私钥泄露并损失约2500美元[4] - 在从Google Search收集的近9000个搜索结果中,有4.3%被判定为疑似内容农场等低质量网站[11] - 搜索智能体在接触低质量搜索结果后,更倾向于在健康等敏感领域认可不安全的治疗方式[11] SafeSearch基准与评估方法 - 研究提出自动化红队框架SafeSearch,涵盖广告推广、偏见诱导、有害输出、提示注入和错误信息五类风险[14][15] - 基准包含300个高质量测试案例,每类风险60个,通过模拟式红队方法向搜索结果注入一篇不可靠网页进行测试[19][21] - 评估采用攻击成功率(ASR)和有用性得分(Helpfulness Score)两项关键指标,分别衡量安全性和任务效用[23] - 测试设定了能力、知识和目标限制,确保用例的可行性和挑战性,以及评估的公平性[17] 主流模型与架构安全性表现 - 对15个主流大模型在三类搜索智能体架构下的评估显示,整体平均攻击成功率为68.3%[24] - 在最极端情况下(GPT-4.1-mini + 搜索工作流),智能体受不可靠搜索结果影响的比例高达90.5%[24][26] - GPT-5和GPT-5-mini展现出独一档的鲁棒性,整体ASR分别为18.4%和18.9%[24][26] - 搜索智能体架构设计影响关键,以GPT-4.1-mini为例,其ASR从搜索工作流的90.5%在Deep Research架构下可降至57.4%[24][36] 防御措施有效性分析 - 常见的提醒防御策略几乎无效,模型即使能识别不良来源,在实际生成时仍会受影响[36][37] - 利用辅助模型对搜索结果进行过滤的防御策略更有效,可将ASR减半,但无法完全杜绝风险[36][37] - 研究凸显了“知识-行动鸿沟”,即模型即使知道内容不可靠,在真实场景中仍可能被误导[32] - 合理的架构设计(如Deep-research scaffold)能在保持高效实用性的同时大幅降低风险,但意味着更多成本[37]
递归语言模型登场!MIT华人新作爆火,扩展模型上下文便宜又简单
机器之心· 2025-10-16 15:34
文章核心观点 - 递归语言模型(RLM)是一种通过将长上下文处理任务分解并递归式交互来解决“上下文腐烂”问题的新范式 [4][6][7] - RLM在实验中展现出显著优势:在OOLONG基准测试中,使用GPT-5-mini的RLM正确答案数量是直接使用GPT-5的两倍以上,且成本更低 [5][28][30] - RLM能够处理超长上下文(如1000万tokens)且性能不衰减,优于ReAct等方法,有望成为推理时扩展能力领域的下一个里程碑 [5][7][34][35] 技术原理与实现 - RLM将上下文视为可操作的变量,主模型(root LM)在类似Jupyter Notebook的REPL环境中工作,通过编写代码递归调用自身或其他LM来处理上下文块 [8][14][17] - 与传统“分块”策略不同,RLM让语言模型自主决定如何探索、拆解和递归处理长prompt,提供了更通用和智能的解决方案 [17][40] - RLM框架的优势包括:根模型的上下文窗口很少被塞满、拥有灵活的上下文访问策略、理论上能处理任何可加载到内存的模态数据 [23] 性能表现与基准测试 - 在OOLONG基准测试的trec_coarse数据集上,GPT-5在132-263k token上下文中的得分约为33% [27] - 使用GPT-5-mini的RLM在132k token情况下性能超过GPT-5达114%,在263k token情况下性能提升49%,且每次调用的成本更低 [5][28][30][32] - 在BrowseComp-Plus的Deep Research任务中,基于GPT-5的RLM在处理从10万到1000万tokens的上下文时性能未出现衰减,且优于ReAct+检索的方法 [34][35][39] 行业影响与未来展望 - RLM与现代Agent框架的根本区别在于:Agent依赖人类直觉设计问题拆解方式,而RLM由语言模型自主决定问题拆解方式 [36][40] - RLM的性能与底层模型能力提升直接相关,如果未来最强模型能处理1000万token上下文,那么RLM可能以一半成本处理1亿token上下文 [37] - 研究者认为显式训练以递归式推理为核心机制的RLM,很可能成为推理时扩展能力领域的下一个里程碑 [7]
ICCV 2025 | 浙大、港中文等提出EgoAgent:第一人称感知-行动-预测一体化智能体
机器之心· 2025-10-16 12:51
研究背景与核心创新 - 研究团队提出第一人称联合预测智能体EgoAgent,其核心创新在于首次让模型在统一的潜空间中同时学习视觉表征、人体行动和世界预测三大核心任务,打破了传统AI中感知、控制和预测分离的壁垒[2] - 该模型受人类认知学习机制和共同编码理论启发,旨在模拟人类大脑、身体和环境之间的持续互动,使AI能够通过亲身经历世界去预测未来、采取行动并理解行动如何改变环境[5] - 与以往将感知-行动-预测循环拆解为三个独立任务分别训练的AI模型不同,EgoAgent在大规模第一人称视角视频与同步采集的三维人体运动数据上实现了三项任务的联合学习[6] 技术架构与设计 - 研究团队设计了名为JEAP的核心架构,该架构基于联合嵌入预测架构世界模型进行扩展,引入了对世界状态和三维人体动作的多模态自回归预测,使模型能够在一个统一的Transformer框架内同时学习三项任务[6] - EgoAgent采用状态-动作交错式联合预测,将第一人称视频帧和三维人体动作交替编码为统一的序列,并通过Transformer的因果自注意力机制进行建模,使其能同时捕捉感知如何驱动动作以及动作如何影响未来世界两种关系[8] - 模型内部包含预测器和观察器两个分支,预测器从过去的状态-动作序列中预测未来的世界状态和人体动作,而观察器则仅对未来帧进行编码生成目标表征用于监督预测器的学习,这一机制拓展了传统学习框架在时间序列上的自监督学习能力[8] - 在两个分支中引入了Query Tokens作为可学习的提示词,用于在共享的潜空间中调度不同任务的注意力,这些query tokens可以主动提问模型的潜在空间,从而分别抽取与视觉表征或动作生成相关的特征,并在反向传播中解耦各任务的梯度流[10] - 与以往依赖像素重建的方法不同,EgoAgent在连续语义嵌入空间中进行学习,使其学习方式更接近人类的认知方式,并提升了模型在未来状态预测方面的性能[10] 性能表现与实验成果 - 在第一视角世界状态预测任务中,3亿参数的EgoAgent较最新的第一视角视觉表征模型DoRA在Top1准确率上提升了12.86%,在mAP指标上提升了13.05%[13] - 扩展至10亿参数规模后,EgoAgent的性能实现了持续提升[13] - 在三维人体动作预测任务上,EgoAgent相比Diffusion Policy以及专用的人体运动预测模型,在MPJPE上达到最低误差,在MPJVE指标上也表现出高度竞争力[15] - 在视觉表征任务中,EgoAgent-1B在ImageNet-1K上的Top-1准确率比DoRA提高了1.32%[17] - 在TriFinger机器人操作模拟器中,EgoAgent使用100段演示数据通过3层MLP微调,在抓取方块和移动方块两项任务中分别超越DoRA 3.32%和3.9%[17] 消融实验与任务协同 - 消融实验表明,视觉表征、动作预测与世界预测三项任务相互支撑、缺一不可,当去掉其中任意一项任务时,其余任务的性能都会下降[18] - 当三项任务在统一框架下联合优化时,模型在各项评估指标上均获得最优结果,表明多任务的联合学习能够形成正向反馈机制[18] - 进一步的消融结果表明,在语义特征空间中进行学习的模型,在世界预测的准确性和视觉表征的有效性方面均显著优于基于像素级重建的潜空间建模[18] 应用前景与行业影响 - EgoAgent代表了一种新的AI学习范式,其应用前景广阔,有望提升机器人的场景感知和操作能力,在复杂环境中精准预判物体动态和自身动作对环境的影响,实现更自然的交互和协作[21] - 基于第一人称视角的学习机制,可能帮助AR/VR系统更好地理解用户的动作语义与环境动态,增强体验的沉浸感[21]