刚刚，Grok4跑分曝光：「人类最后考试」拿下45%，是Gemini 2.5两倍，但网友不信

Grok 4基准测试结果泄露 - Grok 4和Grok 4 Code的基准测试结果疑似泄露，引发行业关注 [2] - Grok 4在HLE（人类最后考试）标准得分35%，使用推理技术后提升至45%，显著高于OpenAI o3的20%和GPT-4o的四到五倍 [3][5] - Grok 4在GPQA（研究生级物理和天文学问题）得分87-88%，与OpenAI o3顶级表现相当，超过Claude 4 Opus的75% [6] - Grok 4在AIME '25（美国数学奥赛）得分95%，远超Claude 4 Opus的34%，略优于OpenAI o3的80-90% [7] - Grok 4 Code在SWEBench得分72-75%，与Claude Opus 4的72.5%持平，略高于OpenAI o3的71.7% [8] Grok 4模型特性与开发进展 - Grok 4仅支持文本模式，视觉、图像生成等功能即将推出，支持13万tokens上下文窗口，较竞争对手前沿模型更小 [16] - Grok 4将包括函数调用、结构化输出和推理能力，定位为自然语言、数学和推理方面"拥有无可匹敌的能力"的通才模型 [16][17] - Grok 4 Code是专为编程设计的模型，用户可直接提问代码问题或嵌入代码编辑器 [18] - 马斯克表示正"通宵达旦开发Grok 4"，模型已完成训练但需"最后一次大规模训练"，特别是代码模型方面 [20] 行业反应与潜在影响 - 泄露的基准成绩刺激行业，Grok 4在HLE的45%得分几乎是Gemini 2.5 Pro的两倍，若属实意味着通过AI基准测试最艰难一关 [9] - 网友对HLE高分存疑，认为xAI可能使用不同报告方法，但爆料者称数字真实但配置未知 [12][13][14] - 行业推测Grok 4可能近期发布，若成绩属实将推动AI大模型发展 [25][26]