Workflow
o3 Pro
icon
搜索文档
GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了
机器之心· 2025-08-15 12:17
前沿AI模型推理能力评估 - 谷歌、OpenAI等前沿AI模型在数学奥林匹克(IMO)水平测试中达到金牌水准,但新基准FormulaOne测试中GPT-5、Claude 4 Opus、Gemini 2 5 Pro等顶级模型集体得零分[2][3] - FormulaOne包含220个图结构动态规划问题,分为浅层(100题)、深层(100题)、最深层(20题)三个难度等级,最深层级涉及拓扑与几何、组合问题分析等科研级难题[3][4] - 在浅层难度测试中顶尖模型成功率50%-70%,深层难度GPT-5 Pro表现最佳但仅解出4/100题,所有模型在最深层难度成功率均为0%[10][12] FormulaOne基准技术细节 - 测试问题基于Courcelle算法元定理,要求AI对图结构进行树分解并通过动态规划分步解决,涉及15个相互依赖的推理步骤[6][7][8] - 解决方案需要设计能总结"袋"内信息的"状态",并精确定义顶点引入、遗忘及"袋"合并时的状态转换规则[7] - 社交媒体关注焦点在于未公布人类博士生在该基准上的表现数据,引发对AI与人类专家推理能力对比的讨论[9] AAI公司背景 - 由Mobileye创始人Amnon Shashua于2023年8月在耶路撒冷创立,专注"人工专家智能"(AEI)研发,已获数千万美元投资[14][16][19] - AEI技术路径强调领域知识与科学推理结合,目标突破传统AI在专业精度或泛化能力上的单一局限[18][19] - 入选AWS 2024生成式AI加速器项目,获得100万美元计算资源支持基础设施建设[19]
Open AI再放大招
格隆汇APP· 2025-07-18 18:16
OpenAI ChatGPT智能体系 - ChatGPT智能体系融合Operator远程浏览器执行能力、Deep Research网络信息整合技术及ChatGPT对话优势,成为统一智能体平台的集大成者[1] - 该系统具备自主思考和行动能力,能从技能库主动挑选工具完成超复杂任务,通过"内置计算机"执行多步骤任务,突破传统问答局限[1] - 实际应用表现包括:10分钟内完成结婚请柬相关男装、鞋子推荐及礼物建议 规划全美30座棒球队观赛路线并推荐酒店 快速整理日历信息汇报客户会议[1] - 技术架构采用虚拟计算机处理任务,在推理与执行间灵活切换,集成多工具并配备多种网络工具[1] - 安全机制包括敏感操作前征求用户授权、主动监督和风险缓解功能,拒绝高风险任务[1] AI Agent技术竞争格局 - 2025年上半年AI Agent模型竞争进入白热化阶段[1] - DeepSeek通过强化学习创新打破OpenAI在推理模型赛道的垄断,缩小国内外技术差距[2] - OpenAI推出o3 Pro、Anthropic发布Claude 4系列、Google推出Gemini 2.5 Pro,头部厂商迭代速度超预期[2] - Meta宣布投资150亿美元给数据标签公司Scale AI并重组AI部门[3] - 国内阿里发布通义千问3.0、字节推出豆包1.6版本,DeepSeek的R1模型通过强化学习显著提升推理能力[3] AI Agent应用场景 - 编程领域:AI coding工具可通过自然语言自动生成代码框架、查找漏洞、重构代码 ChatGPT Agent的多工具协作能力将带来更高效体验[4] - 设计领域:专业设计智能体Lovart实现从需求理解到品牌视觉方案交付的全流程自动化,支持2D图像、矢量图形、3D模型等创作[4] - 音视频创作:万兴超媒Agent整合资源与工具推动创作流程智能化 ChatGPT Agent的信息整合能力有望带来新变革[4] - 日常生活:可智能浏览网页、筛选结果、运行代码、分析数据、生成PPT和Excel 策划婚礼时自主推荐礼服、预订酒店、准备礼物[5] AI Agent技术演进方向 - 自主决策与环境感知能力增强,能像人类一样根据环境和任务需求分析决策 如自动驾驶领域实时感知路况并做出驾驶决策[5] - 工具使用与协作能力持续提升,可与Gmail、Github等外部工具交互 处理复杂任务时协同使用文本浏览器、可视化浏览器、终端等多种工具[5] - 多Agent协作成为研究热点,未来有望像人类团队一样分工解决复杂问题 ChatGPT Agent的多工具集成体现强大协作力[6] 市场规模与商业模式 - 预计2030年全球AI Agent市场规模达471亿美元,复合年增长率44.8%[7] - 当前商业模式以订阅与token付费并存 ChatGPT Agent为Pro用户提供每月400次额度,Plus和Team用户40次[8] - 垂类AI Agent依托行业知识在编程、设计等场景优先落地,探索ToC硬件和长链条规划创新[8]
一边“背刺”微软一边内卷:OpenAI被爆竟与谷歌云达成合作,o3降价80%
硬AI· 2025-06-11 10:11
行业动态 - OpenAI与谷歌达成云服务合作协议 谷歌云将为公司提供算力支持 双方此前已讨论数月 合作于5月敲定 [1][5][6] - 此前因OpenAI与微软的锁定协议 谷歌无法与OpenAI合作 今年1月前 微软一直是OpenAI独家云服务供应商 [1][8] - 行业竞争格局因算力需求发生改变 巨额计算成本正在重塑AI行业 公司间从竞争对手转变为合作伙伴 [5][6] 公司战略 - OpenAI采取多元化算力策略 除谷歌外 还与软银/甲骨文合作5000亿美元"星际之门"项目 预计到2030年将支持75%算力需求 [9] - 公司计划今年敲定首款自研芯片设计 减少对外部硬件依赖 [10] - 公司年度经常性收入达100亿美元 较去年55亿美元增长近翻倍 但所有收入都投入模型运行和开发 [6] 产品与定价 - OpenAI大幅降价80%推出推理模型o3 同时推出o3 Pro [2][3] - 今年1月DeepSeek发布高性价比开源模型后 OpenAI随即推出成本效益最高的o3-mini模型 并向免费用户开放 [3] - 降价策略被视为应对行业竞争加剧的措施 推动大模型领域"内卷" [3] 合作关系 - 微软不再担任OpenAI独家云供应商 但仍保留优先购买权 合作协议持续至2030年 [8] - 微软可独家转售OpenAI模型 并复用其知识产权 同时享有25%收入分成 [8] - 双方正重新谈判数十亿美元投资协议条款 包括微软未来股权份额 [8]
OpenAI:OpenAI o3模型降价80%
快讯· 2025-06-10 23:13
OpenAI o3模型降价 - OpenAI宣布将o3模型价格下调80% [1] - 创始人Sam Altman表示期待市场对该举措的反应 [1] - 公司同时强调o3 Pro版本的性能与定价将满足用户需求 [1] 人工智能行业动态 - 此次降价可能引发行业竞争格局变化 [1] - 价格调整反映公司通过规模化降低技术成本的策略 [1] - 订阅服务模式成为企业获取AI动态的重要渠道 [1]