产品发布与可用性 - xAI公司宣布其最新模型Grok 4.1已向所有用户开放,可通过Grok官网、X平台以及iOS和Android应用使用 [1] - 新模型将立即在Auto模式中推送,用户也可在模型选择器中手动选择 [3] 核心性能提升 - Grok 4.1在真实世界可用性方面有显著提升,尤其在创造力、情感互动和协作交互方面表现出色 [4] - 模型对细微意图的感知能力更强,对话更具吸引力,人格更连贯,同时保留了前代模型的智能与可靠性 [4] - 与之前的线上生产模型相比,Grok 4.1在对比评估中有64.78%的概率被用户偏好选择 [6] 技术优化方法 - 公司在支撑Grok 4的同一套大规模强化学习基础设施上,进一步优化了模型的风格、个性、助人性和对齐性 [6] - 为优化不可直接验证的奖励信号,公司开发了新方法,利用前沿的智能体式推理模型作为奖励模型,以大规模自主评估并迭代输出结果 [6] 通用能力表现 - 在LMArena的Text Arena排行榜上,Grok 4.1的推理模式(代号:quasarflux)以1483的Elo分数位居总榜首位,领先最高的非xAI模型31分 [13] - 其非推理模式(代号:tensor)以1465的Elo分数位居第二,即便不启用推理,也超越了其他所有模型在启用完整推理配置下的表现 [13] - 与Grok 4相比,Grok 4.1的整体表现实现了大幅超越,前者的总排名仅为第33名 [14] 情感智能评估 - 在EQ-Bench3测试中,Grok 4.1的推理模式和非推理模式位居评估榜单前两名 [18] - 该测试用于评估主动情绪智能,包括情绪理解、洞察力、同理心以及人际交往技能 [17] - 示例显示,Grok 4.1对情绪类提示的回应更具同理心和细节描述 [21] 创意写作能力 - 公司在Creative Writing v3基准测试上评估了Grok 4.1系列模型的表现,模型需针对32个不同的写作提示生成回答并进行3轮迭代 [23] 减少幻觉改进 - 在后训练过程中,公司着重降低了信息查询类提示的事实幻觉,并在抽样的生产环境信息查询提示中观察到了幻觉率的显著下降 [27] - 同时评测了FActScore基准,这是一个包含500个关于不同人物的传记类问题的公共测试 [27]
刚刚,马斯克Grok 4.1低调发布!通用能力碾压其他一切模型
机器之心·2025-11-18 07:40