模型发布与性能 - xAI发布新一代大模型Grok 4和Grok 4 Heavy两个型号,推理能力较前代提升10倍 [3] - Grok 4在SAT和GRE等高难度考试中取得接近满分成绩 [3] - 训练量是Grok 2的100倍,强化学习计算量是现有任何模型的10倍 [5] - 在Humanity's Last Exam测试中,Grok 4得分38.6%,Grok 4 Heavy提升至44.4% [5][15] - 在GPQA、AIME25等学科赛题中,Grok 4 Heavy获得4项冠军,其中AIME25和HMMT25分别取得100%和96.7%的成绩 [5] 技术能力与基准测试 - Grok 4在Vending-Bench商业模拟场景中平均净资产达$4684.15,是第二名Claude 4的两倍 [5] - 在ARC-AGI v2评测中达到SOTA,准确率15.9%,是第二名Claude 4的8.6%的近两倍 [5][31] - 在Artificial Analysis全套基准测试中总成绩73分,领先o3、Gemini 2.5 Pro等竞争对手 [20] - 语音能力较上代快2倍,支持5种语音,单日用户总停留时长提升10倍 [27] - 新增角色Eve和Sal,支持多种性格和唱歌功能 [29] 产品规划与定价 - 定价分为Free(仅Grok 3)、SuperGrok(30美元/月)和SuperGrok Heavy(300美元/月)三档 [7] - 后续计划8月推代码模型、9月上线多模态智能代理、10月发视频生成模型 [7][46] - API提供256K tokens上下文窗口,版本号为grok-4-0709,价格与Grok 3相同 [37] - API服务速度为每秒75个token,优于Claude 4 Opus Thinking的66个token [40] 应用案例与演示 - 演示了基于物理原理的黑洞碰撞引力波模拟效果,完整呈现计算步骤和论文引用 [24][26] - 用户DannyLimanseta在4小时内用Grok 4制作了一款FPS射击游戏,并能运行和改进游戏 [43] - 在游戏制作方面展现出实际运行能力和改进建议能力 [43]
马斯克发布 Grok 4 模型:推理能力较前代提升 10 倍,各学科测试接近满分
Founder Park·2025-07-10 15:59