马斯克发布 Grok 4 模型：推理能力较前代提升 10 倍，各学科测试接近满分

模型发布与性能 - xAI发布新一代大模型Grok 4和Grok 4 Heavy两个型号，推理能力较前代提升10倍 [3] - Grok 4在SAT和GRE等高难度考试中取得接近满分成绩 [3] - 训练量是Grok 2的100倍，强化学习计算量是现有任何模型的10倍 [5] - 在Humanity's Last Exam测试中，Grok 4得分38.6%，Grok 4 Heavy提升至44.4% [5][15] - 在GPQA、AIME25等学科赛题中，Grok 4 Heavy获得4项冠军，其中AIME25和HMMT25分别取得100%和96.7%的成绩 [5] 技术能力与基准测试 - Grok 4在Vending-Bench商业模拟场景中平均净资产达$4684.15，是第二名Claude 4的两倍 [5] - 在ARC-AGI v2评测中达到SOTA，准确率15.9%，是第二名Claude 4的8.6%的近两倍 [5][31] - 在Artificial Analysis全套基准测试中总成绩73分，领先o3、Gemini 2.5 Pro等竞争对手 [20] - 语音能力较上代快2倍，支持5种语音，单日用户总停留时长提升10倍 [27] - 新增角色Eve和Sal，支持多种性格和唱歌功能 [29] 产品规划与定价 - 定价分为Free(仅Grok 3)、SuperGrok(30美元/月)和SuperGrok Heavy(300美元/月)三档 [7] - 后续计划8月推代码模型、9月上线多模态智能代理、10月发视频生成模型 [7][46] - API提供256K tokens上下文窗口，版本号为grok-4-0709，价格与Grok 3相同 [37] - API服务速度为每秒75个token，优于Claude 4 Opus Thinking的66个token [40] 应用案例与演示 - 演示了基于物理原理的黑洞碰撞引力波模拟效果，完整呈现计算步骤和论文引用 [24][26] - 用户DannyLimanseta在4小时内用Grok 4制作了一款FPS射击游戏，并能运行和改进游戏 [43] - 在游戏制作方面展现出实际运行能力和改进建议能力 [43]