Workflow
刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信
机器之心·2025-07-05 10:46

Grok 4基准测试结果泄露 - Grok 4和Grok 4 Code的基准测试结果疑似泄露,引发行业关注 [2] - Grok 4在HLE(人类最后考试)标准得分35%,使用推理技术后提升至45%,显著高于OpenAI o3的20%和GPT-4o的四到五倍 [3][5] - Grok 4在GPQA(研究生级物理和天文学问题)得分87-88%,与OpenAI o3顶级表现相当,超过Claude 4 Opus的75% [6] - Grok 4在AIME '25(美国数学奥赛)得分95%,远超Claude 4 Opus的34%,略优于OpenAI o3的80-90% [7] - Grok 4 Code在SWEBench得分72-75%,与Claude Opus 4的72.5%持平,略高于OpenAI o3的71.7% [8] Grok 4模型特性与开发进展 - Grok 4仅支持文本模式,视觉、图像生成等功能即将推出,支持13万tokens上下文窗口,较竞争对手前沿模型更小 [16] - Grok 4将包括函数调用、结构化输出和推理能力,定位为自然语言、数学和推理方面"拥有无可匹敌的能力"的通才模型 [16][17] - Grok 4 Code是专为编程设计的模型,用户可直接提问代码问题或嵌入代码编辑器 [18] - 马斯克表示正"通宵达旦开发Grok 4",模型已完成训练但需"最后一次大规模训练",特别是代码模型方面 [20] 行业反应与潜在影响 - 泄露的基准成绩刺激行业,Grok 4在HLE的45%得分几乎是Gemini 2.5 Pro的两倍,若属实意味着通过AI基准测试最艰难一关 [9] - 网友对HLE高分存疑,认为xAI可能使用不同报告方法,但爆料者称数字真实但配置未知 [12][13][14] - 行业推测Grok 4可能近期发布,若成绩属实将推动AI大模型发展 [25][26]