Workflow
推理力跃升10倍,理论性能对标GPT-5与Claude4Opus
海通国际证券·2025-07-11 14:29

报告行业投资评级 未提及 报告的核心观点 - Grok 4 的 Token 窗口和视频能力预示 AI 将从单轮问答迈向长链对话与交互推理,Agent 化落地基础逐步完备,相比 Claude 专注文本推理、Gemini 主打多模态,Grok 更聚焦互联网原生性 +AI 应用性融合,形成差异化 [8] - Grok 4 在 GRE、MMLU - Pro 和 Humanity's Last Exam 等测试中跑分领先,但在 AGI - ARC - 2 上的表现显示其仍未突破具备“通用智能”的范式,整体具备极高的“功能智能”而非“理论智能” [8] - Grok 4 Code 版本 8 月上线,结合多模态与实时搜索能力,有望切入 AI 代码生成、智能协助领域,订阅定价策略指向超级用户和 AI 开发者群体,与 GPT - 4、Claude 形成差异化定位 [8][9] 事件总结 - 2025 年 7 月 9 日,xAI 正式发布最新旗舰大模型 Grok 4,7 月 10 日上午 11 点举行全球直播发布会,该模型在 xAI 自研的 Colossus 超级计算机上训练,跳过 3.5 版本,在推理性能、多模态能力和上下文处理能力上均跃升,现已开放 API 访问,月费定价 30 美元,重载多智能体版本 Grok 4 Heavy 定价 300 美元,未来 8 月推出编程模型、9 月上线多模态智能体版本、10 月支持视频生成模型 [2] 点评总结 训练强度与工具融合 - Grok 4 训练规模远超前代,计算资源投入为 Grok - 2 的 100 倍、Grok - 3 的 10 倍,依托 20 万张 GPU 超算集群,训练中广泛引入 RL 技术,工具融入训练提升模型在复杂推理任务中的表现,实际测试得分较训练期可提升 10 个百分点,显示出泛化与工具适应能力 [3] 专业能力表现 - Grok 4 在垂直专业场景实力强劲,Live Coding Bench 编程测试几乎满分,8 月将推出 Grok 4 Code;在药物研发领域,是当前唯一在 RKG 基准中突破 10% 准确率的模型;在自动化零售等真实世界任务中取得第一名成绩,有望在工业级落地实现实际价值 [4] 关键技术升级 - Grok 4 在上下文理解、推理能力和多模态交互方面领先,上下文窗口扩展至 25.6 万 tokens,推理性能提升达 10 倍,在 GRE 测试中接近满分,HLE 自主推理准确率达 26.9% 刷新业内记录,具备全面多模态扩展性,支持文本、图像,未来拓展至视频任务 [5] 系统性能与交互体验 - Grok 4 在系统交互与信息检索方面增强,依托 DeepSearch 功能可实时联网检索 X 平台和网页内容,新版本 UI 支持更快响应、多线程 Agent 并发及未来本地部署可能性,强化代码能力,通过 GroK 4 Code 版本切入开发者生态 [6]