Workflow
大模型评测
icon
搜索文档
o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理
量子位· 2025-06-13 10:25
OpenAI o3-pro模型性能评测 - o3-pro在复杂推理测试中成功解答歌手Sabrina Carpenter歌曲名的字母谜题耗时4分25秒[2] - 与o3相比o3-pro在相同测试中仅能答对部分字母[3] - 前OpenAI AGI团队负责人Miles Brundage公开支持o3-pro的推理能力并暗讽苹果对AI推理的质疑[4][5] 模型基准测试表现 - 官方测评显示o3-pro成为OpenAI当前最强编码模型[8] - LiveBench榜单显示o3-pro与o3编码平均分仅差0.07分(76.78 vs 76.71)[11] - 智能体编码得分o3-pro显著落后o3(31.67 vs 36.67)[11] - 亚马逊云科技前高管指出o3-pro在智能体和工具使用方面存在不足[12] 上下文处理能力 - 短上下文场景下o3-pro表现优于o3[15] - 192k超长上下文处理Gemini 2.5 Pro得分90.6显著高于o3-pro的65.6[16] - 上下文长度测试显示o3-pro在60k以下场景保持94.4分以上表现[17] 实际应用案例 - 前苹果工程师Ben Hylak通过输入公司历史会议记录等完整背景信息o3-pro输出精准业务规划[24][25] - o3-pro在工具调用和环境认知方面表现提升能明确说明功能边界[30][31] - 相比o3的虚假承诺o3-pro更诚实地说明功能限制[33][35] - 在SQL等特定任务上o3表现仍优于o3-pro[38] 模型特性分析 - o3-pro需要更丰富的背景信息输入否则易出现过度思考[37] - 与Claude Opus和Gemini 2.5 Pro相比o3-pro输出质量更高维度不同[39] - OpenAI通过强化学习路径提升模型"何时使用工具"的决策能力[39] - 系统提示和语境设置对o3-pro表现影响显著[40][41] 商业动态 - o3模型价格下调成为昨日重要新闻[13] - 前苹果工程师Ben Hylak透露已提前一周接触o3-pro进行测试[23]
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科
量子位· 2025-03-04 12:51
大模型评测新基准SuperGPQA - 字节跳动豆包大模型团队联合M-A-P开源社区推出全新评测基准SuperGPQA,旨在解决传统评测基准的局限性 [2] - SuperGPQA覆盖285个研究生级学科,包含26,529道专业题目,远超现有GPQA(448题)和MMLU-Pro(12,032题)[3][10] - 该评测搭建工作耗时半年,近百位学界学者及名校硕博、业界工程师参与标注 [2] 传统评测基准的局限性 - 传统基准如MMLU和GPQA覆盖学科数量不足50个,无法涵盖人类积累的多样化和长尾知识 [8] - GPT-4o在MMLU-Pro上准确率达92.3%,导致评测体系失去区分度 [1][8] - 传统基准42%的问题来自维基百科,缺乏专业深度,易被模型通过记忆机制"破解" [8] SuperGPQA的创新特点 - 学科覆盖全面:覆盖13个门类、72个一级学科和285个二级学科 [10] - 题目设计更具挑战性:每题平均9.67个选项,比传统4选项格式难度更高 [10] - STEM领域问题占比77.2%,确保在复杂推理任务中的高效评估 [12] - 42.33%的问题需要数学计算或严谨推理,有效评估模型在高难度任务中的表现 [12] 数据构建和质量控制 - 采用专家标注、众包注释和大模型协同验证三重流程确保题目质量 [6] - 来源筛选阶段由专家从教科书、权威练习网站等可信来源收集原始问题 [13] - 质量检测阶段采用基于规则的初步过滤、基于LLM的质量检测和专家复审三层机制 [16] 模型表现评估 - 在涵盖51个模型的横向评测中,DeepSeek-R1以61.82%准确率登顶,但仍显著低于人类研究生水平(平均85%+)[4][20] - 推理模型(DeepSeek-R1、O1-2024-12-17)包揽前3,领先聊天模型超10个百分点 [24] - 豆包大模型(Doubao-1.5-pro)以55.09%准确率位列聊天模型第一,超越GPT-4o-2024-11-20(44.40%)[24] 行业影响和未来展望 - SuperGPQA的开源发布填补了行业在全面评估大模型能力方面的空白 [7][22] - 该评测基准的推出反映了行业对大模型能力评估标准提升的需求 [22] - 字节跳动通过SuperGPQA展示了其在基础研究工作上的投入和追求模型智能上限的决心 [22][23]