Grok 4 模型性能与规格 - Grok 4 模型在 xAI 自研的 Colossus 超算上训练,计算资源投入为 Grok-2 的 100 倍、Grok-3 的 10 倍,实现了推理性能、多模态能力和上下文处理能力的跃升 [4] - 模型拥有两个版本:Grok 4(月费 30 美元)和 Grok 4 Heavy(月费 300 美元),后者为多 Agent 协作版本,能够同时启动多个 Agent 并行工作并整合结果 [5] - 在 HLE 测试中,Grok 4 得分为 38.6 分,而 Grok 4 Heavy 得分达 44.4 分,为行业最高;在 HMMT 测试中,Grok 4 为 90 分,Grok 4 Heavy 达 97 分 [7] - 模型支持 256k tokens 的上下文窗口,并支持实时网络搜索和基础工具调用 [7] 基准测试表现与 HLE 重要性 - Grok 4 在 GPQA、AIME25、LCB(Jan-May)、HMMT25、USAMO25 等多项测评中超越了 o3、Gemini 2.5 Pro、Claude 4 Opus 等模型 [7] - 在 HLE(人类最后考试)基准测试中,Grok 4 Heavy 获得 44.4% 的成绩,显著高于此前冠军 Gemini 2.5 Pro 的 26.9% [9] - HLE 基准测试包含 2500 个极具挑战性的问题,覆盖数学、人文学科、自然科学等超过 100 个学科,设计为无法通过简单互联网检索快速回答的问题 [15] - 在 Grok 4 推出前,市面上最强大模型在 HLE 上表现不理想,例如 GPR-4o 的准确率仅为 2.7% [16] 核心技术创新:多智能体内生化 - Grok 4 的核心创新是在训练阶段引入多智能体协作,即"多智能体内生化",将 Agent 调用及实时搜索等能力融合到训练过程中 [6][42][43] - 大模型发展主线是能力内生化,从 OpenAI o1 的"思维链内生化"到 Grok 4 的"多智能体内生化",将多代理协作、动态任务分配等能力训练进模型中 [34][39][42][46] - "多智能体内生化"使 AI 内生化地支持 Agentic AI,更有效地解决复杂任务,相比外部工具调用,内生化的能力发挥更稳定 [40][41][46] AI 模型能力内生化趋势 - 行业发展趋势是 AI 能力内生化,包括深度思考内生化、Agent 内生化以及多模态内生化 [47][50] - 多模态内生化指大模型能够原生地理解图片、音频、视频,而非先转码成文字再理解,业界公认的目标是 Omni Model [51][53][54] - Google Gemini 已支持视频模态输入输出,而 OpenAI 的所有模型尚不支持视频模态输入 [56] - 能力内生化趋势下,大模型应用类公司的核心壁垒在于私域数据的持续积累和对应用场景的深度洞察 [58] AI Coding 能力与市场认知 - Grok 4 在代码生成能力上存在不足,生成的代码常有依赖库丢失、界面 UI 粗糙等问题,例如编写游戏时丢失 pygame 库 [63][64] - 商业场景需要的 coding model 是能整合 Github repo 资源、构建项目级应用的实战派选手,而非仅精通算法的奥赛型选手 [66][67] - Base44 公司专注于 Vibe Coding(氛围编程),通过自然语言交互生成完整软件系统,6 个月内用户达 25 万,并被以 8000 万美元(约 5.7 亿元人民币)收购 [69][70][71] 算力需求与行业竞争格局 - Grok 4 依托 20 万张 GPU 集群的 Colossus 超算中心训练,其计算资源投入是 Grok 2 的 100 倍,上下文窗口扩展至 25.6 万 tokens [76] - Colossus 超算中心目前已部署 35 万块 H100,总浮点运算能力达 100 EFLOPS,预计下半年将扩展至超过 50 万张卡 [79] - 预训练、后训练、测试时均存在 Scaling Law,今年开始后训练、测试时推理需求快速增长,多 Agent 内生化将给全球算力需求带来几何级增长 [80][81] - 随着 Grok 4 打响 Agent 能力内生化第一枪,AI 大厂大概率跟进,新一代大模型训练的军备竞赛已经开始 [83]
一文看懂:Grok 4到底强在哪里?
虎嗅·2025-07-14 21:08