Workflow
Cursor终结者?Grok 4正式登顶!马斯克扬言编程碾压,20万N卡年赚47亿美金!
AI前线·2025-07-10 15:41

Grok 4发布概况 - xAI跳过Grok 3.5直接发布Grok 4通用模型,后续三个月将陆续推出专为编码任务设计的Coding Model、多模态代理Multi-modal Agent和视频生成模型Video Generation Model [1] - Grok 4已上线三个订阅版本:免费基础版、每月30美元的Supergrok和每月300美元的Supergrok Heavy,后者可提前体验新产品 [1] - 马斯克宣称Grok 4智能水平超过博士生,在SAT考试中能取得满分,GRE各学科成绩近乎满分,表现超过绝大多数研究生 [2][9] 产品性能与技术特点 - Grok 4搭载"深度搜索"工具,可从X平台抓取实时数据,能高精度解读meme、俚语和幽默内容,成为最"懂网络"的AI助手之一 [7] - Grok 4 Heavy采用多智能体系统,多个智能体同时处理问题并比较工作以找到最佳答案 [8] - 在"人类终极考试"中,Grok 4准确率达50.7%,配备工具的Grok 4 Heavy得分44.4%,超过Gemini 2.5 Pro的26.9% [11][13] - 在ARC-AGI-1测试中取得66.7%成绩,在ARC-AGI-2测试中以15.9%创下新最优成绩,是此前商业模型最优成绩的两倍 [13][15] 基准测试表现 - 人工智能分析智能指数达73,领先OpenAI o3的70 [17] - 在GPQA Diamond测试中创下88%历史最高分,超过Gemini 2.5 Pro的84% [20] - 在MMLU-Pro和2024年AIME测试中分别以87%和94%成绩并列第一 [20] - 输出速度每秒75个token,慢于o3的188 token/秒但快于Claude 4 Opus思维版的66 token/秒 [20] 技术实现与训练 - 从Grok 3到Grok 4,公司将大量计算投入推理和强化学习,训练量是Grok 2的100倍 [25][27] - Colossus超级计算机扩展到20万个GPU,在强化学习中的计算能力比任何竞争对手模型高出10倍 [29] - 语音功能升级为自然、类人的声线,中断更少 [35] 市场反应与未来计划 - 网友认为Grok 4在多项基准测试中表现优于o3、Gemini和Claude,若在"人类终极考试"中得分44.4%属实则极其令人印象深刻 [38] - 预计几周内推出专用编码模型,第七版基础模型将增强多模态理解以实现强大视频生成功能 [35] - 马斯克预测第一款优秀AI电子游戏或值得一看的AI电影将在明年问世 [35]