模型评估方法 - 评估方法涵盖推理、多模态能力、智能体工具使用、多语言性能和长上下文处理等多个基准测试[2] - 详细的基准测试方法、结果和方法论可在指定网站获取[2] 核心性能表现 - 在学术推理测试Humanity's Last Exam中得分37.5%,显著高于Gemini 2.5 Pro的21.6%[2] - 视觉推理测试ARC-AGI-2得分31.1%,远超Gemini 2.5 Pro的4.9%[2] - 科学知识测试GPQA Diamond得分91.9%,优于Gemini 2.5 Pro的86.4%[2] - 数学测试AIME 2025无工具条件下得分95%,使用代码执行后达到100%[2] - 挑战性数学竞赛MathArena Apex得分23.4%,显著高于Gemini 2.5 Pro的0.5%[2] - 多模态理解测试MMMU-Pro得分81%,优于Gemini 2.5 Pro的68%[2] - 屏幕理解测试ScreenSpot-Pro得分72.7%,远超Gemini 2.5 Pro的11.4%[2] - 复杂图表信息合成测试CharXiv Reasoning得分81.4%[2] - 视频知识获取测试Video-MMMU得分87.6%[2] - 长上下文测试MRCR v2在128k平均得分77%,在1M点对点得分26.3%[2] 编程与智能体能力 - 竞争性编程测试LiveCodeBench Pro获得2439 Elo评分,显著高于Gemini 2.5 Pro的1775[2] - 终端编码测试Terminal-Bench 2.0得分54.2%[2] - 智能体编码测试SWE-Bench Verified得分76.2%[2] - 智能体工具使用测试t2-bench得分85.4%[2] - 长视野智能体任务Vending-Bench 2平均净值5478.16美元[2] 知识检索与多语言能力 - 内部基础测试FACTS Benchmark Suite得分70.5%[2] - 参数化知识测试SimpleQA Verified得分72.1%[2] - 多语言问答测试MMMLU得分91.8%[2] - 跨语言文化常识推理测试Global PIQA得分93.4%[2] 市场评价与预期 - 测评人员对模型给予极高评价[7] - 具体点评预计在两周内发布[8]
gemini3 流出版?
小熊跑的快·2025-11-18 20:22