人工智能模型测评
搜索文档
gemini3 流出版?
小熊跑的快· 2025-11-18 20:22
模型评估方法 - 评估方法涵盖推理、多模态能力、智能体工具使用、多语言性能和长上下文处理等多个基准测试[2] - 详细的基准测试方法、结果和方法论可在指定网站获取[2] 核心性能表现 - 在学术推理测试Humanity's Last Exam中得分37.5%,显著高于Gemini 2.5 Pro的21.6%[2] - 视觉推理测试ARC-AGI-2得分31.1%,远超Gemini 2.5 Pro的4.9%[2] - 科学知识测试GPQA Diamond得分91.9%,优于Gemini 2.5 Pro的86.4%[2] - 数学测试AIME 2025无工具条件下得分95%,使用代码执行后达到100%[2] - 挑战性数学竞赛MathArena Apex得分23.4%,显著高于Gemini 2.5 Pro的0.5%[2] - 多模态理解测试MMMU-Pro得分81%,优于Gemini 2.5 Pro的68%[2] - 屏幕理解测试ScreenSpot-Pro得分72.7%,远超Gemini 2.5 Pro的11.4%[2] - 复杂图表信息合成测试CharXiv Reasoning得分81.4%[2] - 视频知识获取测试Video-MMMU得分87.6%[2] - 长上下文测试MRCR v2在128k平均得分77%,在1M点对点得分26.3%[2] 编程与智能体能力 - 竞争性编程测试LiveCodeBench Pro获得2439 Elo评分,显著高于Gemini 2.5 Pro的1775[2] - 终端编码测试Terminal-Bench 2.0得分54.2%[2] - 智能体编码测试SWE-Bench Verified得分76.2%[2] - 智能体工具使用测试t2-bench得分85.4%[2] - 长视野智能体任务Vending-Bench 2平均净值5478.16美元[2] 知识检索与多语言能力 - 内部基础测试FACTS Benchmark Suite得分70.5%[2] - 参数化知识测试SimpleQA Verified得分72.1%[2] - 多语言问答测试MMMLU得分91.8%[2] - 跨语言文化常识推理测试Global PIQA得分93.4%[2] 市场评价与预期 - 测评人员对模型给予极高评价[7] - 具体点评预计在两周内发布[8]
重新体验GPT-5后,我想它比GPT-4o更需要一场葬礼
虎嗅· 2025-08-11 20:57
GPT-5与GPT-4o性能对比 - GPT-5在编程等硬核技术任务上表现优于GPT-4o 但在写邮件、数据分析和阅读理解等需要人类经验的任务上表现不如GPT-4o贴心准确 [16][56] - GPT-5逻辑能力不稳定 有时能解决复杂逻辑题 有时连简单数学题都会算错 可靠性不如前代 [17][66] - GPT-5创意能力原地踏步甚至倒退 输出内容套路化缺乏灵气 与GPT-4o相比没有质的提升 [18][80] - GPT-5交互体验退步 缺乏共情能力 回应更理性但少走心感觉 [19][98] 生产力任务表现 - GPT-5生成的邮件更理性简洁 但GPT-4o的版本读起来更舒服专业 [24][32] - 在数据分析任务中 GPT-5处理时间更长且表格显示有误 而GPT-4o能生成更直观的可视化结果 [43][44] - GPT-5编程能力有提升 生成绘本的代码量达几百行 可直接运行且效果较好 [54][56] 逻辑与知识推理 - GPT-5在部分逻辑题如身高排序上表现优于GPT-4o 能给出更全面的排列组合 [62][63] - 在简单数学题如数西瓜和数手指上 GPT-5表现不稳定 有时会给出错误答案 [64][66] - 复杂数学题如椭圆离心率计算 GPT-5思考时间长且答案简单 准确性存疑 [68][70] 创意与内容生成 - 在标题创作和诗歌写作任务中 GPT-5与GPT-4o表现接近 均未达到惊艳水平 [80][82] - 生成图片提示词时 GPT-5能提供更详细的描述 但直接生图效果与GPT-4o差异不大 [85][88] 交互与用户体验 - 面对用户负面情绪 GPT-5回应更理性但缺乏共情 GPT-4o能更灵活调整回应方式 [93][98] - 在角色扮演任务中 GPT-5与GPT-4o均能保持角色一致性 但GPT-5推断用户心理的准确性存疑 [100][101] - 多轮对话测试显示两者上下文连续性表现接近 均能准确回顾之前讨论内容 [103][104] 行业影响与用户反馈 - 用户普遍认为GPT-5升级名不副实 实际体验未达预期 部分场景表现甚至不如GPT-4o [20][105] - 行业更关注AI模型实际解决问题的能力 而非单纯追求榜单得分和发布会炫技 [109][110]