Workflow
正面硬刚谷歌和OpenAI!马斯克旗下xAI突然出手
新华网财经·2025-11-18 16:34

模型性能表现 - Grok 4 1在大模型竞技场文本排行榜上位居首位 其具备深度思考能力的版本Grok 4 1 Thinking Elo分数为1483 非推理模式Elo分数为1465 [1][2] - 与线上生产模型相比 在对比评估中有64 78%的概率被用户偏好选择 [2] - 模型幻觉率显著降低 从12 09%下降到4 22 减少近三倍 [4] 核心能力提升 - 情感智能是重要迭代方向 在EQ Bench3测试中推理模式和非推理模式位居榜单前两名 能够更敏锐感知细微意图 个性更加一致 [2] - 通过案例展示 对情绪类提示的回应更具真实同理心和细节 文笔更好 [3][4] - 创意写作能力显著提升 文学表达和戏剧张力明显增强 [4] 技术实现路径 - 公司沿用Grok 4的大规模强化学习基础设施 应用于优化模型风格、个性、实用性和一致性 [5] - 开发新方法 利用前沿的智能推理模型作为奖励模型 以大规模自主评估并迭代输出结果 [5] 行业竞争态势 - 模型发布时机恰逢谷歌即将揭晓新一代Gemini模型前夕 行业竞争加剧 [1][6] - 此次迭代方向与OpenAI发布的GPT 5 1一致 均旨在实现更富有人情味的交互体验 [2][6]