Grok 4 性能表现 - Grok 4 在 ARC-AGI 榜单 v1 和 v2 版本测试中分别达到 66.7% 和 16% 的准确率,超越 GPT-4o 的 65.7% 和 9.9% 以及 Claude Opus 4 的 35.7% 和 8.6% [13] - 基于 Grok 4 的改进方案通过英语替代 Python 和程序合成技术,将 v1 和 v2 准确率进一步提升至 79.6% 和 29.44%,同时显著降低任务成本(v1 从 8.42 美元降至 2.56 美元,v2 从 30.4 美元降至 3.97 美元)[14][16] - Grok 4 被研究者选为测试效果最佳的基础模型,其多步骤推理能力在复杂任务中表现突出 [17] Grok 5 发展计划与预期 - Grok 5 预计在几周内开始训练,并计划于 2024 年底前推出 [21][22] - 马斯克认为 Grok 5 有 10% 或更高可能性实现 AGI,此前他未预期该版本会出现 AGI [19][20] - 训练数据量将显著超越前代,Grok 4 训练量已是 Grok 2 的 100 倍和 Grok 3 的 10 倍 [23] 数据与算力资源优势 - xAI 通过特斯拉 FSD 摄像头、擎天柱机器人和自有体系获取海量实时数据,形成独特数据优势 [24][25] - 公司计划 5 年内部署相当于 5000 万台 H100 GPU 的算力,目前已为 Grok 部署 23 万张 GPU(含 3 万张 NVIDIA GB200)[26] - 专为 Grok 构建的 Colossus 超算集群持续提供强大算力支持 [26] 行业竞争格局 - Grok 系列在 ARC-AGI 榜单实现技术超越,当前开源方案已领先 OpenAI、Anthropic 和谷歌等主流模型 [3][8] - AGI 实现仍存不确定性,需最终产品验证技术突破的有效性 [27][28]
马斯克开始疯狂剧透Grok 5了
量子位·2025-09-18 14:09