正面硬刚谷歌和OpenAI！马斯克旗下xAI突然出手

模型性能表现 - Grok 4 1在大模型竞技场文本排行榜上位居首位其具备深度思考能力的版本Grok 4 1 Thinking Elo分数为1483 非推理模式Elo分数为1465 [1][2] - 与线上生产模型相比在对比评估中有64 78%的概率被用户偏好选择 [2] - 模型幻觉率显著降低从12 09%下降到4 22 减少近三倍 [4] 核心能力提升 - 情感智能是重要迭代方向在EQ Bench3测试中推理模式和非推理模式位居榜单前两名能够更敏锐感知细微意图个性更加一致 [2] - 通过案例展示对情绪类提示的回应更具真实同理心和细节文笔更好 [3][4] - 创意写作能力显著提升文学表达和戏剧张力明显增强 [4] 技术实现路径 - 公司沿用Grok 4的大规模强化学习基础设施应用于优化模型风格、个性、实用性和一致性 [5] - 开发新方法利用前沿的智能推理模型作为奖励模型以大规模自主评估并迭代输出结果 [5] 行业竞争态势 - 模型发布时机恰逢谷歌即将揭晓新一代Gemini模型前夕行业竞争加剧 [1][6] - 此次迭代方向与OpenAI发布的GPT 5 1一致均旨在实现更富有人情味的交互体验 [2][6]