推理力跃升10倍，理论性能对标GPT-5与Claude4Opus

报告行业投资评级未提及报告的核心观点 - Grok 4 的 Token 窗口和视频能力预示 AI 将从单轮问答迈向长链对话与交互推理，Agent 化落地基础逐步完备，相比 Claude 专注文本推理、Gemini 主打多模态，Grok 更聚焦互联网原生性 +AI 应用性融合，形成差异化 [8] - Grok 4 在 GRE、MMLU - Pro 和 Humanity's Last Exam 等测试中跑分领先，但在 AGI - ARC - 2 上的表现显示其仍未突破具备“通用智能”的范式，整体具备极高的“功能智能”而非“理论智能” [8] - Grok 4 Code 版本 8 月上线，结合多模态与实时搜索能力，有望切入 AI 代码生成、智能协助领域，订阅定价策略指向超级用户和 AI 开发者群体，与 GPT - 4、Claude 形成差异化定位 [8][9] 事件总结 - 2025 年 7 月 9 日，xAI 正式发布最新旗舰大模型 Grok 4，7 月 10 日上午 11 点举行全球直播发布会，该模型在 xAI 自研的 Colossus 超级计算机上训练，跳过 3.5 版本，在推理性能、多模态能力和上下文处理能力上均跃升，现已开放 API 访问，月费定价 30 美元，重载多智能体版本 Grok 4 Heavy 定价 300 美元，未来 8 月推出编程模型、9 月上线多模态智能体版本、10 月支持视频生成模型 [2] 点评总结训练强度与工具融合 - Grok 4 训练规模远超前代，计算资源投入为 Grok - 2 的 100 倍、Grok - 3 的 10 倍，依托 20 万张 GPU 超算集群，训练中广泛引入 RL 技术，工具融入训练提升模型在复杂推理任务中的表现，实际测试得分较训练期可提升 10 个百分点，显示出泛化与工具适应能力 [3] 专业能力表现 - Grok 4 在垂直专业场景实力强劲，Live Coding Bench 编程测试几乎满分，8 月将推出 Grok 4 Code；在药物研发领域，是当前唯一在 RKG 基准中突破 10% 准确率的模型；在自动化零售等真实世界任务中取得第一名成绩，有望在工业级落地实现实际价值 [4] 关键技术升级 - Grok 4 在上下文理解、推理能力和多模态交互方面领先，上下文窗口扩展至 25.6 万 tokens，推理性能提升达 10 倍，在 GRE 测试中接近满分，HLE 自主推理准确率达 26.9% 刷新业内记录，具备全面多模态扩展性，支持文本、图像，未来拓展至视频任务 [5] 系统性能与交互体验 - Grok 4 在系统交互与信息检索方面增强，依托 DeepSearch 功能可实时联网检索 X 平台和网页内容，新版本 UI 支持更快响应、多线程 Agent 并发及未来本地部署可能性，强化代码能力，通过 GroK 4 Code 版本切入开发者生态 [6]