刚刚，马斯克Grok 4.1低调发布！通用能力碾压其他一切模型

产品发布与可用性 - xAI公司宣布其最新模型Grok 4.1已向所有用户开放，可通过Grok官网、X平台以及iOS和Android应用使用 [1] - 新模型将立即在Auto模式中推送，用户也可在模型选择器中手动选择 [3] 核心性能提升 - Grok 4.1在真实世界可用性方面有显著提升，尤其在创造力、情感互动和协作交互方面表现出色 [4] - 模型对细微意图的感知能力更强，对话更具吸引力，人格更连贯，同时保留了前代模型的智能与可靠性 [4] - 与之前的线上生产模型相比，Grok 4.1在对比评估中有64.78%的概率被用户偏好选择 [6] 技术优化方法 - 公司在支撑Grok 4的同一套大规模强化学习基础设施上，进一步优化了模型的风格、个性、助人性和对齐性 [6] - 为优化不可直接验证的奖励信号，公司开发了新方法，利用前沿的智能体式推理模型作为奖励模型，以大规模自主评估并迭代输出结果 [6] 通用能力表现 - 在LMArena的Text Arena排行榜上，Grok 4.1的推理模式（代号：quasarflux）以1483的Elo分数位居总榜首位，领先最高的非xAI模型31分 [13] - 其非推理模式（代号：tensor）以1465的Elo分数位居第二，即便不启用推理，也超越了其他所有模型在启用完整推理配置下的表现 [13] - 与Grok 4相比，Grok 4.1的整体表现实现了大幅超越，前者的总排名仅为第33名 [14] 情感智能评估 - 在EQ-Bench3测试中，Grok 4.1的推理模式和非推理模式位居评估榜单前两名 [18] - 该测试用于评估主动情绪智能，包括情绪理解、洞察力、同理心以及人际交往技能 [17] - 示例显示，Grok 4.1对情绪类提示的回应更具同理心和细节描述 [21] 创意写作能力 - 公司在Creative Writing v3基准测试上评估了Grok 4.1系列模型的表现，模型需针对32个不同的写作提示生成回答并进行3轮迭代 [23] 减少幻觉改进 - 在后训练过程中，公司着重降低了信息查询类提示的事实幻觉，并在抽样的生产环境信息查询提示中观察到了幻觉率的显著下降 [27] - 同时评测了FActScore基准，这是一个包含500个关于不同人物的传记类问题的公共测试 [27]