Grok 4技术突破 - Grok 4在"人类最后的考试"中取得38.6%准确率,超过谷歌Gemini 2.5 Pro的21.6%和OpenAI o3的21%,多智能体版本Grok 4 Heavy达到44.4%,工具辅助下可达50.7% [2] - 采用"暴力计算美学",训练量是Grok 3的10倍、Grok 2的100倍,依托10万块H100 GPU超级算力中心完成训练 [2] - 创新"工具原生融合"架构,在训练阶段嵌入搜索、代码执行等工具,能灵活调用资源解决复杂问题,如生成黑洞碰撞可视化动态模型 [6] - 在GPQA测试中取得88.9%成绩,美国数学邀请赛AIME25满分,ARC-AGI-2测试以16.2%得分登顶 [6] - 商业模拟任务Vending-Bench中平均净资产达4684.15美元,是第二名两倍,展示长期规划和多步骤推理能力 [6] 产品路线图 - 计划8月推出代码模型,9月上线多模态智能代理,10月发布视频生成模型 [2] - 将融合有限元分析、流体动力学等工具构建高精度物理模拟器,如黑洞模拟 [7] - 已预埋特斯拉最新固件,未来或作为车载语音助手及自动驾驶"大脑" [7] - 目标通过Optimus人形机器人连接现实世界,接受物理定律检验 [7] 商业模式 - 推出行业最贵订阅计划Super Grok Heavy,月费300美元,较OpenAI顶级订阅贵50% [7] - API定价激进,每百万token输入3美元、输出15美元 [7] - 高定价反映训练成本陡增,10万块H100 GPU集群支撑百倍训练量 [7] 行业竞争格局 - AI军备竞赛进入"马斯克节奏",算力碾压和多场景捆绑带来更广应用想象力 [9] - 马斯克布局的自动驾驶、AI大模型、人形机器人、商业航天形成闭环生态 [9] - Grok作为"大脑"驱动特斯拉自动驾驶和Optimus机器人决策,车辆与机器人数据反哺模型迭代 [9] 技术局限性 - 强项集中在推理和复杂知识整合,代码、多模态、图像和视频生成仍有进步空间 [7] - 近期因内容审核问题遭土耳其封禁和波兰政府投诉,需平衡开放性与安全性 [10]
Grok4成“宇宙最强模型”?AI竞赛进入“马斯克节奏”