程序合成技术

搜索文档
马斯克开始疯狂剧透Grok 5了
搜狐财经· 2025-09-18 14:34
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 马斯克的Grok 5偷偷藏不住了。 刚刚ARC-AGI榜单官宣出现新SOTA,用的还是Grok 4+程序合成技术微调。 好小汁,啥时候开始Grok都弯道超车了?OpenAI、Anthropic、谷歌一众明星模型都被压一头。 一石激起千层浪,网友纷纷发问,那等Grok5出来,岂不是…… 马斯克也随即出来回应: 我现在认为Grok 5能达到AGI。 顺便附赠了一堆有关Grok 5的爆料。 马斯克疯狂剧透Grok 5 这事还得从Grok 4超越预期的表现说起,发布才两个月就登上多个榜单第一的宝座,而就在刚刚,ARC Prize发布了两个最新的ARC-AGI榜单SOTA方 案: 先简单介绍一下ARC-AGI排行榜,其旨在评估AI解决复杂难题的能力,类似于人类的智力测试,从而反映LLM的推理能力。 测试任务包含v1和v2版本,v2需要LLM完成更多的多步骤推理,一般来说,即使是最优秀的LLM也只能在v2中获得16%的准确率。 都是开源的。 都使用的是Grok 4作为基础模型。 都实现了带测试自适应的程序合成外循环。 GPT-5在二者上的得分依次是65.7%和9.9% ...
马斯克开始疯狂剧透Grok 5了
量子位· 2025-09-18 14:09
Grok 4 性能表现 - Grok 4 在 ARC-AGI 榜单 v1 和 v2 版本测试中分别达到 66.7% 和 16% 的准确率,超越 GPT-4o 的 65.7% 和 9.9% 以及 Claude Opus 4 的 35.7% 和 8.6% [13] - 基于 Grok 4 的改进方案通过英语替代 Python 和程序合成技术,将 v1 和 v2 准确率进一步提升至 79.6% 和 29.44%,同时显著降低任务成本(v1 从 8.42 美元降至 2.56 美元,v2 从 30.4 美元降至 3.97 美元)[14][16] - Grok 4 被研究者选为测试效果最佳的基础模型,其多步骤推理能力在复杂任务中表现突出 [17] Grok 5 发展计划与预期 - Grok 5 预计在几周内开始训练,并计划于 2024 年底前推出 [21][22] - 马斯克认为 Grok 5 有 10% 或更高可能性实现 AGI,此前他未预期该版本会出现 AGI [19][20] - 训练数据量将显著超越前代,Grok 4 训练量已是 Grok 2 的 100 倍和 Grok 3 的 10 倍 [23] 数据与算力资源优势 - xAI 通过特斯拉 FSD 摄像头、擎天柱机器人和自有体系获取海量实时数据,形成独特数据优势 [24][25] - 公司计划 5 年内部署相当于 5000 万台 H100 GPU 的算力,目前已为 Grok 部署 23 万张 GPU(含 3 万张 NVIDIA GB200)[26] - 专为 Grok 构建的 Colossus 超算集群持续提供强大算力支持 [26] 行业竞争格局 - Grok 系列在 ARC-AGI 榜单实现技术超越,当前开源方案已领先 OpenAI、Anthropic 和谷歌等主流模型 [3][8] - AGI 实现仍存不确定性,需最终产品验证技术突破的有效性 [27][28]