Workflow
马斯克抢先谷歌一步放大招,Grok 4.1登顶LMArena,创意写作直逼GPT-5.1
AI前线·2025-11-18 13:34

产品发布与定位 - xAI于2025年11月17日发布新一代大语言模型Grok 4.1,包含标准版Grok 4.1和增强推理变体Grok 4.1 Thinking两个版本[10] - 两个版本基于同一底层模型,仅推理配置不同,Grok 4.1 Thinking通过使用"思考令牌"进行链式推理,特别适合处理复杂数学、编程或多步问题[10] - 新产品对所有人免费开放,提供官网、X平台以及iOS和安卓移动APP版本[2] 性能表现与基准测试 - 在LMArena大模型盲测平台,Grok 4.1 Thinking以1483 Elo分数排名第一,比第二名Gemini 2.5 Pro高出31分[4][6] - 标准版Grok 4.1以1465 Elo分数位列第二,超越其他厂商的推理模型,显示其底层能力稳定性[5][11] - 在EQ-Bench情商测试中,Grok 4.1获得1586 Elo高分,比上一代提升超过100点,在情绪理解和共情能力上表现突出[16] - 在Creative Writing v3创意写作测试中,Grok 4.1得分跃升至1722 Elo,较上一版提升近600分,叙事节奏和创造性有质感跃升[20] 技术升级与核心改进 - 引入大规模强化学习系统,并使用前沿推理模型作为奖励模型,带来更稳定的风格输出和更可靠的事实判断[12] - 幻觉率从12.09%显著下降至4.22%,降幅接近三倍,在事实准确性方面取得关键突破[13] - FActScore指标从9.89降至2.97,在涉及检索和引用外部事实的场景中能给出更基于证据的回答[15] - 上下文窗口扩展至256K tokens,Fast模式下可达200万,在长文档理解和持续协作中保持高连贯度[26] 用户体验与市场反馈 - 在为期两周的静默发布测试中,Grok 4.1的回答有64.78%的概率被用户选为"更好",显示真实用户偏好[26] - 响应速率明显提升,回答既精准又"有人味儿",在交互体验上有显著改进[2][24] - 在实测中展现出较强的推理能力,能成功找出复杂逻辑题的多组解[31] - 具备图像生成和根据图像一键生成视频的能力,扩展了应用场景[37][39]