Workflow
Grok 4.1
icon
搜索文档
马斯克Grok 4.1双冠封王,爆冲第一,AI王座一夜易主
36氪· 2025-11-18 09:09
AI新王来了!马斯克Grok 4.1静默上线,一夜之间登顶LMArena,Gemini 2.5 Pro却被按在地上摩擦。主打情商智商在线,算力又扩增一个数 量级。 AI王座,一夜易主! 一早,马斯克携xAI投下一颗重磅炸弹——Grok 4.1正式上线,而且对所有人免费。 有趣的是,Grok 4.1主打的也是「智商情商双在线」,正面硬刚GPT-5.1。 这一次,Grok 4.1一共放出了两大版本:Grok 4.1 Thinking和Grok 4.1。 在LMArena排行榜上,Grok 4.1 Thinking拿下了1483 Elo的成绩,以绝对实力加冕全球大模型之王。 Thinking版要比Gemini 2.5 Pro高出整整31分。即便是非推理模式的Grok 4.1,直接杀入榜单第二。 | Rank TI | Rank Spread O (Upper-Lower) | Model 11 | Score ↓ | 95% Cl (±) 11 | Votes 71 | Organization 14 | License 11 | | --- | --- | --- | --- | --- | --- | --- ...
马斯克再出AI王牌:Grok 4.1霸榜LMArena排行榜
搜狐财经· 2025-11-18 09:00
本次更新旨在全面提升 Grok 在真实世界场景下的可用性。官方表示,Grok 4.1 不仅继承了前代模型敏锐的智能与高可靠性,更在创造性、情感理解和协作 互动方面实现了重大改进,让其能够更精准地感知用户细微意图,提供更具吸引力和人格连贯性的对话体验。 IT之家 11 月 18 日消息,埃隆・马斯克(Elon Musk)旗下的人工智能公司 xAI 昨日(11 月 17 日)发布公告,宣布推出最新大语言模型 Grok 4.1,并已面向 grok.com、 平台及移动应用(iOS 和安卓)所有用户全面推送。 除了在通用能力基准测试中表现出色,Grok 4.1 还在"软实力"方面取得了显著进步。在衡量模型情商的 EQ-Bench3 基准测试和评估创意能力的 Creative Writing v3 测试中,新模型均表现优异。 在评估情感理解、洞察力和人际交往能力的 EQ-Bench3 基准测试中,Grok 4.1 的推理与非推理模式包揽了榜单前两名。 在创意写作领域,根据 Creative Writing v3 基准测试结果,Grok 4.1 的两种模式分别位列第二和第三,仅次于早期的 GPT-5.1 模型。 Grok ...
马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜
量子位· 2025-11-18 08:59
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,马斯克发布Grok 4.1,同时霸榜大模型竞技场的第一和第二。 怎么做到的? Grok 4.1思考模式 以1483的Elo分数稳居榜首,领先非xAI模型中的最高分整整31分。 Grok 4.1非思考模式 以1465分拿下第二名,超越了公开排行榜上所有其他模型的完整推理模式。 | Rank 14 | Rank Spread O (Upper-Lower) | Model 14 | Score ↓ | 95% Cl (±) 11 | Votes 11 | Organization 1J | License 11 | | --- | --- | --- | --- | --- | --- | --- | --- | | 1 | 1 4-12 | X grok-4.1-thinking | 1483 O Preliminary | ±11 | 3,298 | ×AI | Proprietary | | 2 | 1 < > 4 | XI grok-4.1 | 1465 O Preliminary | ±11 | 3,413 | ×AI | Proprietar ...
xAI发布Grok 4.1:速度、质量与情感智能全方位升级,幻觉率大幅降低
36氪· 2025-11-18 08:23
当地时间11月17日,xAI正式发布Grok 4.1。版本已面向grok.com、X平台以及iOS、Android应用的所有用户开放,包括免费用户,并在 Auto模式中默认启用。 Grok 4.1在最近一轮静默测试(11月1日至14日)中,盲评偏好率达到64.78%,明显高于前代版本。 xAI创始人埃隆·马斯克(Elon Musk)称,用户将"明显感受到速度与质量上的提升"。与以往着重算力或规模的更新不同,Grok 4.1把重 点放在三个直观但极具难度的方向:更快的响应、更高的事实准确性,以及更自然、更具个性的对话体验。 性能提升:更少幻觉、更准事实、更强风格控制 Grok4.1在信息查询的测试中表现突出。官方数据显示:Grok4.1的幻觉率从12.09%降到4.22%,减少近三倍;FActScore从9.89%降至 2.97%,同样呈显著提升。在当前大型模型普遍存在事实不稳定问题的背景下,这是一次真正的结构性升级。 xAI表示,Grok4.1性能提升得益于强化学习基础设施与新的奖励模型体系:Grok 4.1使用"前沿推理模型"作为奖励模型,让模型能自主评 估并快速迭代。这意味着训练不再过度依赖大规模人工标注 ...
刚刚,马斯克Grok 4.1低调发布,通用能力碾压其他一切模型
36氪· 2025-11-18 08:11
几乎毫无预兆,马斯克人工智能公司 xAI 发布了最新模型 Grok 4.1。 就在刚刚,xAI 宣布,Grok 4.1 已经向所有用户开放,可以在 Grok 官网、X 以及 iOS 和 Android 应用中使用。 Grok 4.1将立即在 Auto 模式中推送,并可在模型选择器中手动选择。 此次,Grok 4.1 将在真实世界可用性方面带来显著提升,尤其是在创造力、情感互动和协作交互方面表现出色。Grok 4.1 对细微意图的感知能力更强,与 用户对话更加吸引人,整体人格也更连贯,同时完全保留了前代模型强大的智能与可靠性。 马斯克在 x 上宣传一波自家模型。 为实现这些提升,xAI 在支撑 Grok 4 的同一套大规模强化学习基础设施上进一步优化了模型的风格、个性、助人性和对齐性。并且,为了优化这些不可 直接验证的奖励信号,xAI 开发了全新的方法,能够利用前沿的智能体式推理模型作为奖励模型,从而可以大规模自主评估并迭代输出结果。 与此前的线上生产模型相比,Grok 4.1 在对比评估中有 64.78% 的概率被用户偏好选择。 情感智能 为了评估模型在个性与人际互动能力方面的进展,xAI 在 EQ-Benc ...
马斯克xAI发布Grok 4.1:性能全面提升迎战ChatGPT等对手 即日起登录苹果、安卓应用商店
智通财经网· 2025-11-18 07:53
智通财经APP获悉,当地时间周一,埃隆·马斯克旗下xAI正式发布聊天机器人Grok 4.1最新版本。马斯 克表示,用户应能"注意到相较前代产品在速度和品质上的显著提升"。 该版本即日起在grok.com、X平台及苹果(AAPL.US)的Apple iOS和谷歌(GOOGL.US)的Google Android应 用商店上线。 xAI团队称:"新版对细微意图的感知更为敏锐,对话更具吸引力,且个性表现更连贯一致,同时完全保 留了前代产品锐利的智能水准与可靠性。" 该版本支持两种模式:思考模式可进行深度推理,非推理模式则无需消耗token即可实现即时响应。测 试数据显示,Grok 4.1在情商和创意写作方面的得分优于此前版本,幻觉(即编造虚假或错误信息)发生 率也大幅降低——Grok 4非推理模型的幻觉率为12%,Grok 4.1非推理模型已降至4.2%。 此外,Grok聊天机器人还在特斯拉(TSLA.US)车辆中担任语音助手功能。 其竞争对手包括OpenAI 的ChatGPT、Google Gemini及微软(MSFT.US)Copilot等主流AI助手。 ...
刚刚,马斯克Grok 4.1低调发布!通用能力碾压其他一切模型
机器之心· 2025-11-18 07:40
| | | 就在刚刚,xAI 宣布,Grok 4.1 已经向所有用户开放,可以在 Grok 官网、X 以及 iOS 和 Android 应用中使用。 此次, Grok 4.1 将在真实世界可用性方面带来显著提升,尤其是在创造力、情感互动和协作交互方面表现出色 。Grok 4.1 对细微意图的感知能力更强,与用户对 话更加吸引人,整体人格也更连贯,同时完全保留了前代模型强大的智能与可靠性。 Grok 4.1 将立即在 Auto 模式中推送,并可在模型选择器中手动选择。 上宣传一波自家模型。 为实现这些提升,xAI 在支撑 Grok 4 的同一套大规模强化学习基础设施上进一步优化了模型的风格、个性、助人性和对齐性。并且,为了优化这些不可直接验证 的奖励信号,xAI 开发了全新的方法,能够利用前沿的智能体式推理模型作为奖励模型,从而可以大规模自主评估并迭代输出结果。 与此前的线上生产模型相比,Grok 4.1 在对比评估中有 64.78% 的概率被用户偏好选择。 马斯克在 x 接下来看 Grok 4.1 的能力特征。 SOTA 通用能力 Grok 4.1 在盲测的人类偏好评估中树立了全新的标杆。 在 LMArena ...