马斯克抢先谷歌一步放大招，Grok 4.1登顶LMArena，创意写作直逼GPT-5.1

产品发布与定位 - xAI于2025年11月17日发布新一代大语言模型Grok 4.1，包含标准版Grok 4.1和增强推理变体Grok 4.1 Thinking两个版本[10] - 两个版本基于同一底层模型，仅推理配置不同，Grok 4.1 Thinking通过使用"思考令牌"进行链式推理，特别适合处理复杂数学、编程或多步问题[10] - 新产品对所有人免费开放，提供官网、X平台以及iOS和安卓移动APP版本[2] 性能表现与基准测试 - 在LMArena大模型盲测平台，Grok 4.1 Thinking以1483 Elo分数排名第一，比第二名Gemini 2.5 Pro高出31分[4][6] - 标准版Grok 4.1以1465 Elo分数位列第二，超越其他厂商的推理模型，显示其底层能力稳定性[5][11] - 在EQ-Bench情商测试中，Grok 4.1获得1586 Elo高分，比上一代提升超过100点，在情绪理解和共情能力上表现突出[16] - 在Creative Writing v3创意写作测试中，Grok 4.1得分跃升至1722 Elo，较上一版提升近600分，叙事节奏和创造性有质感跃升[20] 技术升级与核心改进 - 引入大规模强化学习系统，并使用前沿推理模型作为奖励模型，带来更稳定的风格输出和更可靠的事实判断[12] - 幻觉率从12.09%显著下降至4.22%，降幅接近三倍，在事实准确性方面取得关键突破[13] - FActScore指标从9.89降至2.97，在涉及检索和引用外部事实的场景中能给出更基于证据的回答[15] - 上下文窗口扩展至256K tokens，Fast模式下可达200万，在长文档理解和持续协作中保持高连贯度[26] 用户体验与市场反馈 - 在为期两周的静默发布测试中，Grok 4.1的回答有64.78%的概率被用户选为"更好"，显示真实用户偏好[26] - 响应速率明显提升，回答既精准又"有人味儿"，在交互体验上有显著改进[2][24] - 在实测中展现出较强的推理能力，能成功找出复杂逻辑题的多组解[31] - 具备图像生成和根据图像一键生成视频的能力，扩展了应用场景[37][39]