马斯克Grok-4碾压所有大模型！“比所有领域博士都聪明”，AIME25拿满分

Grok-4发布核心亮点 - 在"人类最后考试HLE"上成为首个突破50%准确率的模型测试时训练+工具融入条件下达50.7% [1][3] - 在GPQA研究生水平问答得分88.9% AIME25数学赛满分 HMMT25数学推理96.7% USAMO25奥赛61.9% [11] - 比Gemini-2.5-Pro性能提升18个百分点在RKG药物基准成为唯一突破10%准确率的模型 [2][38] - 裸考SAT接近满分 GER考试几乎满分马斯克称其比所有领域博士生都聪明 [6][21] 技术突破与训练方法 - 训练量达Grok-2的100倍 Grok-3的10倍依托20万卡计算集群进行RL训练 [23] - 原生工具融入训练方法使Scaling效率提升相同计算资源获得更高智能 [26][27] - 前7个基础模型版本已完成训练测试时训练可再提升10个百分点性能 [25][28] 多领域应用展示 - 预测MLB世界大赛胜率(道奇队21.6%) 模拟黑洞引力波碰撞生成波形动画 [31][33] - Live Coding Bench编程测试近满分 4小时完成第一人称射击游戏开发 [37][41] - 自动零售bench排名第一生物医疗领域可筛选假设与分析数据 [39][44] 产品矩阵与商业规划 - 订阅服务SuperGrok定价30美元/月或300美元/年 [48] - 即将推出编程专用模型多模态Agent和视频生成模型在研 [46] - 确认将整合至特斯拉车载系统及擎天柱人形机器人 [58][60] 行业竞争动态 - 发布前夕OpenAI突然传出下周可能开源推理模型的消息 [12] - 演示中语音对话表现明显优于ChatGPT [10] - 特斯拉最新固件已预装Grok全功能版本支持中英双语交互 [58]