报告行业投资评级 - 计算机行业评级为"推荐(维持)" [3] 报告核心观点 - Grok系列模型由xAI公司开发 通过快速迭代实现多模态与智能体能力突破 最新版本Grok-4在学术测试和多场景应用中建立技术壁垒 [6][8][29] - 海外大模型(OpenAI GPT-5、Google Gemini 2.5 Pro、Anthropic Claude 4)与国产模型(Kimi K2、DeepSeek-V3.1、阿里Qwen3)形成多极竞争格局 国产模型以成本效率优势(如Kimi K2输入成本仅为GPT-4.1的1/3)实现性能追平 [6][8][73] - AI Agent商业化落地加速 推动企业级服务与行业场景应用需求增长 涵盖办公、编程、金融、教育、医疗等细分领域 [6][8][83] 模型技术迭代与性能 Grok系列演进 - Grok-1(2024年3月):开源MoE架构 3140亿参数 在HumanEval编码测试达63.2% MMLU任务达73% 优于ChatGPT-3.5 [13][14][15] - Grok-1.5V(2024年4月):新增图像理解功能 在Mathvista测试准确率52.8% TextVQA达78.1% [17][18] - Grok-2(2024年8月):整合实时检索与图像生成 在MATH测试追平GPT-4o DocVQA测试领先同期模型 [19][21] - Grok-3(2025年2月):参数规模2.7万亿 引入Think分步推理和DeepSearch联网检索 在AIME、GPQA测试超越GPT-4o等旗舰模型 [20][24][25] - Grok-4(2025年7月):上下文窗口256K tokens 计算资源投入较Grok-2增加100倍 在HLE测试以44.4%准确率刷新纪录 在AIME、SAT、GRE测试超越GPT-4o等模型 [29][30][35] 海外大模型进展 - OpenAI GPT-5:在SWE-bench Verified测试达74.9% Aider Polyglot测试达88% [59][61] - Anthropic Claude 4:在SWE-bench Verified测试中Claude Sonnet 4达80.2% Claude Opus 4达79.4% 超越GPT-4.1和Gemini 2.5 Pro [64][66] - Google Gemini 2.5 Pro:在LiveCodeBench测试达74.2% Aider Polyglot达82.2% 多模态与推理能力领先 [68][71] 国产模型突破 - Kimi K2:在SWE-bench Multilingual和Tau2测试接近Claude 4 输入成本仅为GPT-4.1的1/3 [73][77] - DeepSeek-V3.1:通过Post-Training优化增强Agent能力 工具调用效率提升 [6][74][76] - 阿里Qwen3 Coder:编码基准测试媲美Claude Sonnet 4 中文语义任务保持优势 [79][80] 算力与生态布局 - xAI计划五年内实现5000万块H100等效算力规模 支撑Grok系列迭代 [30][50][53] - 国产模型累计备案服务439款 登记应用233款 商业化进程加速 [6][73] 投资应用方向 企业级服务 - 办公:金山办公、合合信息、福昕软件、三六零 [6][84] - 编程:卓易信息、普元信息 [6][84] - ERP:金蝶国际、用友网络 [6][84] - 多模态:万兴科技、美图公司、虹软科技、当虹科技 [6][84] 行业场景 - 金融:大智慧、同花顺、恒生电子、京北方、宇信科技 [6][84] - 教育:科大讯飞、视源股份、新开普、佳发教育 [6][84] - 医疗:阿里健康、卫宁健康、讯飞医疗科技 [6][84] - 工业:华大九天、中控技术、中望软件、索辰科技 [6][84] [6][8][83][84]
Grok: xAI引领Agent加速落地:计算机行业深度研究报告
华创证券·2025-09-23 11:41