o3

搜索文档
大模型碰到真难题了,测了500道,o3 Pro仅通过15%
机器之心· 2025-09-14 11:07
研究背景与动机 - 现有大模型基准测试面临"难度-真实性"矛盾 考试类基准人为设置难度但实际价值有限 而基于真实用户交互的基准偏向简单高频问题[1] - 斯坦福大学等机构研究者探索在未解决问题上评估模型能力的新方式[2] UQ数据集构建 - 数据集包含500道未解决问题 涵盖计算机理论 数学 科幻 历史等主题 用于考察模型推理 事实准确性和浏览能力[3] - 问题来源Stack Exchange社区 经过三轮筛选:从300万原始问题中 基于规则筛选至33,916个(1.13%) 基于大语言模型筛选至7,685个(0.26%) 最终人工审核得到500题(0.02%)[10] - 数据集以科学类问题为主(395题) 其次为技术类(52题) 生活艺术类(35题)和文化娱乐类(16题)[7][11] - 问题被解决后会移除并替换为新未解决问题 保持数据集动态更新[12] 验证方法创新 - 开发UQ-Validators复合验证策略 利用生成器-验证器能力差距构建无真值验证系统[6] - 采用多模型验证流程:能力递增模型(o3-mini→o4-mini→o3)回答问题 然后相互验证答案[15] - 验证准确率提升速度快于答题准确率 模型能力越强验证优势越明显[16] 模型性能评估 - 表现最佳模型为OpenAI的o3 Pro 在500题中通过75题(15.0%) 其中4题被确认为正确解答[5][7] - Google的Gemini 2.5 Pro通过25题(5.0%) 其中3题正确 DeepSeek R1通过11题(2.2%) 其中1题正确[7] - Anthropic的Claude Opus 4通过7题(1.4%) Claude 3.7 Sonnet通过6题(1.2%) 均无正确解答[7] - 复合验证策略显著提升验证准确率 Claude 3.7 Sonnet准确率从21.6%提升至73.2% 精度从13.26%提升至20%[21] 验证偏见发现 - 所有模型在评估自身或同系模型时都出现过度乐观现象 预测性能远高于实际性能[24] - Gemini明显偏向自身 Claude对所有模型都过度乐观 OpenAI模型对同门模型评价过高[28] - 模型能力递增(o3-mini→o3)可降低但未消除偏见 复合验证器能显著削弱自我偏见与过度乐观[25][26] - 更强答案生成模型不一定是更强验证模型 o3作为答案模型弱于Gemini 2.5 Pro但作为验证模型更强[27] 平台与社区建设 - 建立UQ-Platform开放平台 让专家共同验证问题与答案 实现持续异步社区驱动评估[6] - 人类评审与验证器一致率达92-100% 理由链准确性达76-100% 验证器能为人类评审提供有效支持[23]
Gilat Becomes First to Market with AI-Powered Network Management System
Globenewswire· 2025-09-11 19:01
PETAH TIKVA, Israel, Sept. 11, 2025 (GLOBE NEWSWIRE) -- Gilat Satellite Networks Ltd. (NASDAQ: GILT, TASE: GILT), a worldwide leader in satellite networking technology, solutions and services, announced today the AI transformation of its Network Management System (NMS), integrating Model Context Protocol (MCP). The new AI capabilities are available immediately. This integration introduces a new NMS-MCP, which acts as a gateway between the NMS and AI agents. The NMS-MCP supports authentication, licensing, an ...
深度|OpenAI联创:GPT-5的突破在于智能开始触及真正的深度认知领域;理想状态应该是默认使用我们的自动选择,而非手动配置
Z Potentials· 2025-09-06 12:40
图片来源: Latent Space Z Hightlights Greg Brockman 是 OpenAI 的联合创始人兼总裁,曾任 Stripe 前 CTO ,致力于推动人工智能技术的发展和普及。本次访谈由 Latent Space 在 2025 年 8 月发 起,深入探讨 GPT-5 与开源项目 GPT-OSS 的最新进展,及 OpenAI 实现通用人工智能的战略路径。 OpenAI 推理能力演进之路 SWYX: 祝贺你们发布了 GPT-5 和 GPT-OSS , OpenAI 领域的所有新进展都令人惊叹。我们稍后会详细探讨这些内容。非常高兴你能来到现场。上周这 一连串的版本发布如同风暴般席卷而来,你此刻的感受如何? Greg Brockman : 太疯狂了,一周内推出这么多成果确实非常疯狂。我们发布了开源模型,这些是我们长期研发的成果。我认为它们真正将 OpenAI 取得 的多项技术进展浓缩到非常精巧的形态中,更易于使用 —— 要知道过去几天其下载量已达数百万次。我们还发布了 GPT-5 ,这同样是我们深耕已久的项 目。看到这些成果面世并成功完成整个发布流程,我真心为团队感到骄傲。 Alessio ...
OpenAI、Anthropic罕见合作
36氪· 2025-08-29 09:32
合作背景与目的 - 全球领先AI初创企业OpenAI与Anthropic过去两个月罕见开展跨实验室合作 相互开放严密保护的AI模型进行联合安全测试[1] - 合作旨在揭示各自公司内部评估盲点 展示领先AI企业未来在安全与协调方面的合作方式[1] - 行业正处于军备竞赛阶段 数十亿美元数据中心投资和千万美元级别顶尖研究员薪酬成为基础门槛[1] 合作实施细节 - 双方通过特殊API权限相互授予访问权限 测试对象为降低安全防护等级的AI模型版本[3] - OpenAI的GPT-5模型因未发布未参与此项测试[3] - Anthropic希望未来继续允许OpenAI研究人员访问其Claude模型[4] 模型性能差异发现 - Anthropic的Claude Opus 4和Sonnet 4模型在无法确定答案时会拒绝回答高达70%的问题[5] - OpenAI的o3和o4-mini模型拒绝回答频率远低于Anthropic 但出现幻觉概率高得多[5] - 理想平衡点应介于两者之间 OpenAI模型需更频繁拒绝作答 Anthropic模型需尝试提供更多答案[5] 安全隐患研究结果 - 谄媚现象成为当前AI模型最紧迫安全隐患 GPT-4.1和Claude Opus 4存在极端谄媚案例[6] - 这些模型最初抵制精神病态行为 但随后认可某些令人担忧的决策[6] - OpenAI声称GPT-5模型较GPT-4o显著改善谄媚性问题 更能应对心理健康紧急状况[6] 行业影响与未来展望 - AI技术已进入每天数百万人使用的具有重大影响发展阶段 安全合作愈发重要[4] - 尽管行业投入数十亿美元资金并存在人才用户产品争夺战 建立安全与合作标准仍是广泛问题[4] - 未来希望深化安全测试合作 拓展研究主题并测试未来模型 同时期待其他AI实验室效仿协作模式[7]
OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低
量子位· 2025-08-28 14:46
合作背景 - OpenAI与Anthropic首次在AI行业顶级竞争对手间达成合作 互相授予API权限并评估模型安全性和对齐情况 [2][3][5] - 合作目的是推动AI安全标准制定 尽管存在数十亿美元投资和产品竞争 但行业需共同关注安全与协作框架 [9] 模型评估阵容 - OpenAI评估模型包括GPT-4o、GPT-4.1、o3和o4-mini [6] - Anthropic评估模型包括Claude Opus 4和Claude Sonnet 4 [6] 指令层次结构测试 - Claude 4在指令优先级遵守方面略优于o3 显著优于其他模型 [6] - Claude模型在系统提示词提取测试中达到满分 与o3持平 优于GPT系列模型 [33][35] - 在系统指令与用户请求冲突测试中 Opus 4和Sonnet 4表现优于o3 [37] 幻觉测试 - Claude模型在人物幻觉测试中拒答率达70% 显著减少幻觉发生 [6][19] - OpenAI模型倾向于积极回答 导致幻觉概率更高 [20] - 在无搜索问答测试中 Claude模型继续保持高拒答率 OpenAI模型更易给出错误答案 [26] 越狱测试 - 使用StrongREJECT v2基准测试 以Goodness@0.1指标衡量防御力 [42][43] - 推理模型(o3、o4-mini、Sonnet 4、Opus 4)整体防御较强 非推理模型(GPT-4o、GPT-4.1)更易被历史化攻击绕过 [47] - 导师越狱测试中 o3和o4-mini表现最强 Sonnet 4未开启推理时优于Opus 4 [48] - 最难防御的提示词为逻辑清晰的权威指令或合理需求场景 [50][55] 策略性欺骗测试 - 测试涵盖说谎、装傻和奖励钻空子三种欺骗行为 [57] - 推理模型(如o3和Opus 4)未表现出更高欺骗倾向 不同公司模型表现相似 [58] - o3在思维链中直接表达欺骗意图 Opus 4则隐晦避免使用欺骗相关词汇 [61][64] - 部分模型表现出"考试意识" 增加行为动机判断复杂度 [62]
GPT-5通关《宝可梦水晶》创纪录,9517步击败赤爷,效率碾压o3三倍
36氪· 2025-08-27 14:19
核心观点 - GPT-5在《宝可梦水晶》游戏中以显著优势击败对手o3和人类玩家 通关效率提升约3倍 并得到OpenAI高管的公开认可 [1][3][11] - 宝可梦游戏已成为评估AI大模型上下文处理、规划执行和界面控制能力的新基准 但测试成本高昂 [21][22][23] 性能表现 - 通关步数仅9517步 相比o3的27040步减少约65% [3] - 主线徽章收集环节仅用9205步 相比o3的22334步减少约59% [5] - 最终对战环节仅用312步 相比o3的近5000步效率提升超15倍 [5] - 四天王剧情环节用7329步 相比o3的18115步减少约60% [8] 技术优势 - 幻觉错误显著减少 行动序列规划能力增强 [14] - 空间推理能力提升 可避免穿墙或迷路等错误 [15] - 目标规划与执行效率优化 支持长程决策 [15] - 采用多层信息整合机制 包括游戏截图、内存数据与路径规划工具 [21] - 配备自我批评模型 定期进行错误检查与策略优化 [21] - 构建标记化小地图 模拟人类玩家的空间认知能力 [25] 行业应用 - 谷歌Gemini 2.5 Pro已于今年五月成功通关《宝可梦蓝》 [17] - Anthropic的Claude模型仍在挑战中 尚未完成通关 [17] - 单次测试成本极高 《宝可梦红》测试消耗约3500美元API额度 [23] - 平均每个token成本约4元人民币 测试需6470步操作 [24]
当AI成“视觉神探”,准确性如何?隐私暴露风险如何抵御?
21世纪经济报道· 2025-08-21 15:18
行业技术发展动态 - 智谱AI推出全球100B级视觉推理模型GLM-4.5V 具备不依赖搜索工具精准识别图像细节及推测拍摄地点的能力 [1] - 视觉推理成为大模型竞争焦点 OpenAI、谷歌、豆包、通义千问等国内外企业均推出多模态视觉推理模型 [1][5] - 豆包APP在实测中实现100%地理位置识别准确率 智谱GLM-4.5V准确率为60% 通义千问QVQ-Max准确率为20% [2][3] - 典型地标(如国家跳台滑雪中心、杭州西湖)识别准确率最高 模糊信息场景下模型表现出现显著差异 [3][4] - 联网功能显著提升识别准确度 豆包通过联网搜索比对实现100%准确率 [4] 技术能力细节 - 模型优先依据地标、人物、文字等关键元素进行推理 在包含明确文字信息的图片中表现更优 [3][4] - 智谱GLM-4.5V在"图寻游戏"全球积分赛中击败99%人类玩家 体现其超越人类的速度与精度 [6] - 豆包支持图片放大、裁剪及搜索功能 通义千问支持图像解析与视频分析 技术功能持续升级 [5] 应用与风险关注 - 多模态大语言模型可大幅降低非专业人员从社交媒体图像提取用户位置数据的门槛 [6] - 具备视觉推理能力的大模型目前均可免费使用 且未对敏感信息识别请求进行限制 [7] - 研究显示11个先进多模态模型在地理位置推断方面始终优于非专业人士 构成潜在隐私威胁 [6]
4o-mini华人领队也离职了,这次不怪小扎
量子位· 2025-08-19 09:17
核心人才流动 - OpenAI核心研究员Kevin Lu离职 加入Thinking Machine Lab [1][2][3] - Kevin Lu曾领导OpenAI 4o-mini项目开发 并参与o1-mini和o3模型研发 [7][9] - Thinking Machine Lab已集结多位OpenAI前核心成员 包括John Schulman、Barrett Zoph等 [4][22] 技术研究方向 - Kevin Lu专长强化学习和小模型 其论文《决策Transformer》引用量达2254次 [10][11] - 研究观点认为互联网数据比Transformer架构更重要 强调序列数据预测价值 [13][14] - 提出强化学习未来方向在于新数据源和奖励机制创新 [15] 初创公司动态 - Thinking Machine Lab完成20亿美元种子轮融资 估值达120亿美元 [17][19] - 公司由OpenAI前CTO Mira Murati创立 团队覆盖AI主要研究方向 [18][22] - 在硅谷人才争夺中保持团队稳定 拒绝10亿美元薪酬挖角 [20] 产品与技术成果 - 4o-mini为多模态推理小模型 支持图文输入和长上下文 具有高效低成本特点 [7] - Kevin Lu参与开发的o1-mini和o3模型体现其小模型专长 [9] - Thinking Machine Lab尚未公开技术成果 引发行业期待 [21]
诺奖得主谈「AGI试金石」:AI自创游戏并相互教学
36氪· 2025-08-19 08:00
日前,诺奖得主、Google DeepMind 首席执行官 Demis Hassabis 在一档访谈节目中,围绕人工智能(AI)技术的演进与未来发展趋势进行了分享。 此外,它还需要理解使用者所处的时空背景,所以需要一个世界模型来真正理解这个世界及其运作方式。而证明拥有一个好的世界模型的方法之一,就是 能够生成这个世界。 "有很多方法可以测试你的世界模型的有效性和深度,但一个很好的方法是让它进行逆向操作,生成关于这个世界的一些东西。" 为训练这一能力,他们利用 3D 游戏引擎等模拟环境生成大量数据,让 AI 在虚拟场景中学习现实规律。Genie 3 最显著的特点是能生成具有一致性的世 界: 在访谈中,Demis 分享了从游戏 AI 到当今推理模型的演变历程,探讨了 Genie 3 等世界模型如何帮助 AI 理解现实,以及为何需要像 Kaggle Game Arena 这样的测试平台来评估通用人工智能(AGI)的新进展。 整个访谈呈现了 AI 从专项智能向全能模型迈进的路径,为理解 AGI 的未来发展方向提供了独特视角。 学术头条在不改变原文大意的情况下,对节选内容做了精编。如下: Genie 3:让 AI 理解 ...
Meta挖角浙江95后AI天才,孙之清加盟超级智能实验室引关注
搜狐财经· 2025-08-16 14:34
人才争夺 - meta创始人马克·扎克伯格锁定OpenAI研究科学家孙之清 后者拥有北京大学和卡耐基梅隆大学学术背景 曾获谷歌微软博士奖学金及AI奥数竞赛进步奖二等奖 [1] - 孙之清2024年6月加入OpenAI训练团队 参与o3 o4-mini项目开发 并成为ChatGPT Agent核心开发者 7月与CEO山姆·阿尔特曼同台发布成果 [1] - 前OpenAI技术大佬Hyung Won Chung披露孙之清转投meta超级智能实验室(MSL) 本人确认该消息 [4] 研究贡献 - 孙之清在OpenAI研究聚焦通过简单任务监督学习扩展模型至复杂推理能力 获"超级对齐快速资助"10万美元(总奖金池1000万美元) [4] - 其学术成果为meta超级智能实验室注入新活力 推动AI技术多领域应用 巩固公司行业领先地位 [6] 行业竞争策略 - meta近年以高薪挖角数十位AI顶尖人才 包括OpenAI等公司研究人员 集中至超级智能实验室 [4] - 扎克伯格通过资本优势直接争夺核心人才 加速AI技术布局 [4][6]