Workflow
马斯克抢先谷歌一步放大招,Grok 4.1登顶LMArena,创意写作直逼GPT-5.1
搜狐财经·2025-11-18 17:53

产品发布与定位 - xAI于2025年11月17日发布新一代大语言模型Grok 4.1,包含Grok 4.1和Grok 4.1 Thinking两个版本,二者基于同一底层模型,仅推理配置不同[6] - Grok 4.1对所有人免费开放,提供官网、X平台以及iOS和安卓移动APP版本[1] - Grok 4.1 Thinking是增强推理变体,使用"思考令牌"进行链式推理,适合复杂数学、编程或多步问题[6] 性能表现与基准测试 - 在LMArena文本排行榜上,Grok 4.1 Thinking以1483 Elo分数排名第一,比第二名Gemini 2.5 Pro高出31分[2][3] - 非推理版Grok 4.1以1465 Elo分数排名第二,超越其他厂商的推理模型[3][7] - 在EQ-Bench情商测试中,Grok 4.1获得1586 Elo高分,比上一代提升超过100点,占据榜单前两名[11] - 在Creative Writing v3创意写作测试中,Grok 4.1得分跃升至1722 Elo,较上一版提升近600分[17] 技术改进与能力提升 - 模型幻觉率从12.09%大幅下降至4.22%,降幅接近三倍[9] - FActScore指标从9.89降至2.97,事实准确性和可信度显著提升[11] - 上下文窗口扩展至256K tokens,Fast模式下可达200万tokens,增强长文档处理能力[22] - 通过大规模强化学习系统和前沿推理模型作为奖励模型进行训练重构,提升输出稳定性和事实判断[8] 用户体验与市场反馈 - 在为期两周的静默发布测试中,Grok 4.1的回答有64.78%的概率被用户选为"更好"[23] - 模型在情绪理解、创意写作和交互体验上有质变,回复更细腻自然,风格调节更稳定[15][21] - 实测显示模型能成功找出复杂逻辑题的2组解,并具备图像生成和根据图像生成视频的能力[27][31][33] 产品局限 - 在生成代码方面竞争力尚显不足[5] - 实测中发现其在统计中文字数时存在偏差[30]