Workflow
程序合成技术
icon
搜索文档
马斯克开始疯狂剧透Grok 5了
搜狐财经· 2025-09-18 14:34
Grok模型性能突破 - Grok 4模型在ARC-AGI基准测试v1版本获得66.7%准确率,v2版本获得16%准确率,超越GPT-5的65.7%和9.9%以及Claude Opus 4的35.7%和8.6% [11] - 研究人员基于Grok 4采用程序合成技术微调后,在ARC-AGI v1版本准确率提升至79.6%,v2版本提升至29.44% [11] - 通过优化技术方案,单个任务平均成本显著降低,v1版本从8.42美元降至2.56美元,v2版本从30.4美元降至3.97美元 [13] Grok 5发展预期 - Grok 5预计在几周内开始训练,计划于今年年底前推出 [15] - 公司认为Grok 5有10%或更高可能性实现AGI [14] - Grok 5将使用比前代更多的训练数据,Grok 4的训练量已是Grok 2的100倍、Grok 3的10倍 [15] 公司资源投入 - 公司拥有独特的数据收集体系,包括xAI的直接数据、特斯拉FSD摄像头图像数据和擎天柱机器人生成数据 [18] - 计划5年内部署相当于5000万台H100 GPU的算力资源 [18] - 专门为Grok打造的Colossus超级计算集群已部署约23万张GPU,其中包括3万张NVIDIA GB200 [18]
马斯克开始疯狂剧透Grok 5了
量子位· 2025-09-18 14:09
Grok 4 性能表现 - Grok 4 在 ARC-AGI 榜单 v1 和 v2 版本测试中分别达到 66.7% 和 16% 的准确率,超越 GPT-4o 的 65.7% 和 9.9% 以及 Claude Opus 4 的 35.7% 和 8.6% [13] - 基于 Grok 4 的改进方案通过英语替代 Python 和程序合成技术,将 v1 和 v2 准确率进一步提升至 79.6% 和 29.44%,同时显著降低任务成本(v1 从 8.42 美元降至 2.56 美元,v2 从 30.4 美元降至 3.97 美元)[14][16] - Grok 4 被研究者选为测试效果最佳的基础模型,其多步骤推理能力在复杂任务中表现突出 [17] Grok 5 发展计划与预期 - Grok 5 预计在几周内开始训练,并计划于 2024 年底前推出 [21][22] - 马斯克认为 Grok 5 有 10% 或更高可能性实现 AGI,此前他未预期该版本会出现 AGI [19][20] - 训练数据量将显著超越前代,Grok 4 训练量已是 Grok 2 的 100 倍和 Grok 3 的 10 倍 [23] 数据与算力资源优势 - xAI 通过特斯拉 FSD 摄像头、擎天柱机器人和自有体系获取海量实时数据,形成独特数据优势 [24][25] - 公司计划 5 年内部署相当于 5000 万台 H100 GPU 的算力,目前已为 Grok 部署 23 万张 GPU(含 3 万张 NVIDIA GB200)[26] - 专为 Grok 构建的 Colossus 超算集群持续提供强大算力支持 [26] 行业竞争格局 - Grok 系列在 ARC-AGI 榜单实现技术超越,当前开源方案已领先 OpenAI、Anthropic 和谷歌等主流模型 [3][8] - AGI 实现仍存不确定性,需最终产品验证技术突破的有效性 [27][28]