Grok 4

搜索文档
关系回暖?外媒:特朗普与马斯克“再联手”,为美联邦机构推出“政府版Grok”
环球网· 2025-09-26 10:22
【环球网报道 记者 张倩】据美国福克斯新闻网、英国《独立报》等媒体报道,美国总务管理局25日宣布将与美国知名企业家马斯克旗下人工智能 公司xAI合作,使美国联邦机构能够以迄今最低价格和最长期限使用该公司的人工智能(AI)模型Grok。《独立报》就此事评论称,美国总统特朗 普与马斯克的关系似乎正在回暖,二人又再度联手。 报道称,特朗普和马斯克之间的敌意似乎已逐渐成为过去。马斯克25日在给福克斯新闻网的声明中表示,"感谢特朗普总统及其政府,xAI的前沿人 工智能如今向所有联邦机构开放。""我们期待继续与特朗普总统及其团队合作,加速在政府各部门部署人工智能,造福国家。" 特朗普与马斯克自今年6月以来曾爆发激烈冲突,距今不到4个月。据了解,双方曾围绕"大而美"税收和支出法案等问题产生严重分歧,大打"口水 仗"。不过,特朗普9月初在播客节目中评价马斯克"是个好人","我过去欣赏他……现在依然如此"。9月21日,在美国知名保守派活动人士、特朗普 政治盟友查理·柯克的追悼会上,特朗普与马斯克曾被拍到握手,马斯克当天还在社交平台上分享了自己与特朗普"同框"的画面。 《独立报》称,美国总务管理局当天在一份新闻稿中宣布,与马斯克 ...
Nvidia砸千亿美元助力OpenAI,马斯克狂飙造全球最大AI集群 | Jinqiu Select
锦秋集· 2025-09-23 12:44
当基础能力持续进步时,创业的关键在于找到新的应用场景和差异化路径。也许是某个高频的行业环节,也许是某种全新的交互方式,也可能是模型与硬件、人与人 的结合。初创公司同样需要在自己的条件下,找到独特而极致的打法。 今天,AI领域迎来一桩惊天动地的消息:Nvidia 宣布将向 OpenAI 投入高达 1000 亿美元 的战略投资,携手打造至少 10 吉瓦(gigawatts)的数据中心基础设施,用于 支撑下一代模型的训练与部署。 这一动作,标志着模型层玩家的AI 战争从算法、产品层面,真正迈入了"基础设施+算力"的硬核较量阶段。 与此同时,另一边的 Elon Musk 正以一种近乎"超现实"的速度布局算力版图:xAI 正在孟菲斯、密西西比等地加速建设 Colossus 系列 AI 集群,目标是在最短时间内实 现数百兆瓦甚至接近吉瓦级别的集群能力。电站、涡轮机、跨州供电 ──这些支撑算力的根基,都在高强度投入中被快速铺设。 模型层大玩家依然在坚定地押注模型,资本、算力、速度也成为顶级玩家已经形成了难以撼动的护城河。 对大量非模型层的AI创业者来说,这无疑都是好消息。 无论是OpenAI的超大规模训练,还是xAI的集群 ...
马斯克新模型性价比拉满:1折价格实现Gemini 2.5性能,支持2M上下文
量子位· 2025-09-21 21:29
时令 发自 凹非寺 量子位 | 公众号 QbitAI 马斯克xAI又出手了! 这次闪亮登场的是 Grok 4 Fast —— 不仅实现1折价格追平Gemini 2.5,还支持 2M 上下文窗口。 帮我找一篇今年的X帖子,其中mkbhd分别拿着书本式折叠手机和翻盖式折叠手机。 Grok 4 Fast不仅详细描述了帖子内容,提供了准确链接,甚至还贴心地附上了相关的YouTube视频网址。 除此之外,这个全新的多模态推理模型还可与X实现无缝衔接。 例如,给它输入以下提示词: 下面具体来看。 以最低的成本实现最高的性能 可以说,Grok 4 Fast这一波在性价比这件事上树立了新标杆。 在推理基准测试中,它不仅 全面超越Grok 3 Mini ,还大幅降低了Token成本。 与Grok 4相比,Grok 4 Fast在保持与前者性能差不多的同时,平均使用的思考Token数量减少了40%。 根据Artificial Analysis的独立评测验证,在"人工分析智能指数"榜单中,Grok 4 Fast与其它公开可用模型相比,呈现出业界领先的"价格-智 能"比。 除此之外,Grok 4 Fast还在LMArena上进行了对 ...
谷歌Gemini IMO和ICPC夺金功臣之一被xAI挖走,马斯克直呼:起飞
机器之心· 2025-09-21 13:26
机器之心报道 机器之心编辑部 大厂之间不是「你挖我」,就是「我挖你」。 那边特斯拉 Optimus AI 团队负责人 Ashish Kumar 被挖去 Meta,这边谷歌 DeepMind 资深研究科学家被 xAI 挖走了。 马斯克发推祝贺,并用火箭符号喊话:「起飞啦」! 此次, 被挖去 xAI 的是一名在谷歌 DeepMind 工作近 9 年的大神级人物 ——Dustin Tran,离职前担任资深首席研究员 。 他是谷歌 Gemini-0801 的共同创造者,这是谷歌首个在 LMSYS 上登顶的模型。同时是 Gemini 2.5 系列模型的评测专家,这些模型在 WebDev Arena 和 HLE 等榜单 上取得了第一名。他还是谷歌 Gemini 1、1.5、2 和 2.5 的核心贡献者之一,其工作涵盖了强化学习、评测与数据等基础环节,并共同主导了相关论文与成果发布。 他在 X 上发表了一篇公开离职信,全文如下: 我在谷歌 DeepMind 工作 8 年多后选择了离开。这里留下了许多美好的回忆,最初在 Google Brain 参与早期奠基性的论文,与 Noam Shazeer、Ashish Vaswani ...
马斯克开始疯狂剧透Grok 5了
搜狐财经· 2025-09-18 14:34
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 马斯克的Grok 5偷偷藏不住了。 刚刚ARC-AGI榜单官宣出现新SOTA,用的还是Grok 4+程序合成技术微调。 好小汁,啥时候开始Grok都弯道超车了?OpenAI、Anthropic、谷歌一众明星模型都被压一头。 一石激起千层浪,网友纷纷发问,那等Grok5出来,岂不是…… 马斯克也随即出来回应: 我现在认为Grok 5能达到AGI。 顺便附赠了一堆有关Grok 5的爆料。 马斯克疯狂剧透Grok 5 这事还得从Grok 4超越预期的表现说起,发布才两个月就登上多个榜单第一的宝座,而就在刚刚,ARC Prize发布了两个最新的ARC-AGI榜单SOTA方 案: 先简单介绍一下ARC-AGI排行榜,其旨在评估AI解决复杂难题的能力,类似于人类的智力测试,从而反映LLM的推理能力。 测试任务包含v1和v2版本,v2需要LLM完成更多的多步骤推理,一般来说,即使是最优秀的LLM也只能在v2中获得16%的准确率。 都是开源的。 都使用的是Grok 4作为基础模型。 都实现了带测试自适应的程序合成外循环。 GPT-5在二者上的得分依次是65.7%和9.9% ...
马斯克开始疯狂剧透Grok 5了
量子位· 2025-09-18 14:09
Grok 4 性能表现 - Grok 4 在 ARC-AGI 榜单 v1 和 v2 版本测试中分别达到 66.7% 和 16% 的准确率,超越 GPT-4o 的 65.7% 和 9.9% 以及 Claude Opus 4 的 35.7% 和 8.6% [13] - 基于 Grok 4 的改进方案通过英语替代 Python 和程序合成技术,将 v1 和 v2 准确率进一步提升至 79.6% 和 29.44%,同时显著降低任务成本(v1 从 8.42 美元降至 2.56 美元,v2 从 30.4 美元降至 3.97 美元)[14][16] - Grok 4 被研究者选为测试效果最佳的基础模型,其多步骤推理能力在复杂任务中表现突出 [17] Grok 5 发展计划与预期 - Grok 5 预计在几周内开始训练,并计划于 2024 年底前推出 [21][22] - 马斯克认为 Grok 5 有 10% 或更高可能性实现 AGI,此前他未预期该版本会出现 AGI [19][20] - 训练数据量将显著超越前代,Grok 4 训练量已是 Grok 2 的 100 倍和 Grok 3 的 10 倍 [23] 数据与算力资源优势 - xAI 通过特斯拉 FSD 摄像头、擎天柱机器人和自有体系获取海量实时数据,形成独特数据优势 [24][25] - 公司计划 5 年内部署相当于 5000 万台 H100 GPU 的算力,目前已为 Grok 部署 23 万张 GPU(含 3 万张 NVIDIA GB200)[26] - 专为 Grok 构建的 Colossus 超算集群持续提供强大算力支持 [26] 行业竞争格局 - Grok 系列在 ARC-AGI 榜单实现技术超越,当前开源方案已领先 OpenAI、Anthropic 和谷歌等主流模型 [3][8] - AGI 实现仍存不确定性,需最终产品验证技术突破的有效性 [27][28]
下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?
AI前线· 2025-09-18 10:28
作者 | Daniel Dominguez 译者 | 田橙 策划 | 丁晓昀 Kaggle 与 Google DeepMind 合作推出了 Kaggle Game Arena,这一平台通过战略类游戏对人工智能模型进行对战评测。 该系统提供了一个受控环境,让不同模型直接对战。每场比赛都会严格遵循所选游戏的规则,系统会记录比赛结果,并据此形 成排行榜。为了保证评测的公平性,平台采用全对全(all-play-all)的赛制,也就是每个模型会多次与其他所有模型对战,从 而减少随机因素的干扰,使结果在统计上更加可靠。 Game Arena 依赖开源组件。平台已将游戏运行环境及规则执行、模型对接等控制模块全面开源。这一设计方便开发者和研究 人员进行检查、复现或扩展。 首批参赛的八个主流 AI 模型包括:Anthropic 的 Claude Opus 4、DeepSeek 的 DeepSeek-R1、Google 的 Gemini 2.5 Pro 与 Gemini 2.5 Flash、Moonshot AI 的 Kimi 2-K2-Instruct、OpenAI 的 o3 和 o4-mini,以及 xAI 的 Grok 4 ...
GPT-5惨遭零分打脸,顶级AI全军覆没,奥特曼AI博士级能力神话破灭
36氪· 2025-09-16 08:39
FormulaOne基准测试结果 - 顶级大模型在FormulaOne基准测试中表现不佳 GPT-5在基础题正确率接近50% 在进阶题正确率仅4% 在最深层问题正确率为0 [1][6] - 其他模型包括o3 Pro、Claude 4 Opus、Neo、Gemini 2.5 Pro和Grok 4在进阶题和最深层问题正确率均为0或接近0 [1][6][19] - FormulaOne基准包含220个基于图的动态编程问题 分为浅层100题、更深100题和最深层20题三个难度等级 [15][16] FormulaOne基准特点 - 基准测试由AAI公司开发 专注于图上MSO逻辑与动态规划生成问题 旨在衡量超越竞赛编程的算法推理深度 [1][8][15] - 问题具有商业价值 与实际大规模优化问题相关 如路径规划、调度和网络设计 [17] - 基准测试生成自高度表达的单子二阶逻辑框架 为大规模自动问题生成铺平道路 适合构建强化学习环境 [18] - 许多问题与理论计算机科学前沿及核心猜想密切相关 如强指数时间假设 [18] 模型表现分析 - 模型在最深层问题出现概念崩溃 需要非常深入的推理能力 现有模型无法达到 [18][25] - 问题描述简洁但解决需要创造力和深入推理 涉及拓扑和几何洞察、数学知识、组合考虑等 [16][19] - 与竞赛编程不同 现实世界问题涉及多个不确定步骤 没有简单捷径 需要正确且高效的动态程序设计 [25][26] - 模型倾向于过早做出不可逆决策 状态设计需要足够丰富又保持计算可行性 这是主要挑战 [27] AAI公司背景 - AAI由Mobileye联合创始人Amnon Shashua教授发起 2023年8月在耶路撒冷成立 长期处于半隐身状态 [10] - Shashua教授2020年获丹·大卫奖人工智能领域奖项 2022年被汽车名人堂评为移动创新者 [11] - 曾联合创立Mobileye 公司2014年完成以色列史上最大IPO 2017年被Intel以153亿美元收购 2022年再次纳斯达克上市 [12] 基准测试意义 - 现有基准测试无法完整描绘人工智能理解深度 竞赛编程技能不能涵盖解决现实世界研究问题所需的全部推理能力 [15] - 解决全球供应链优化、大规模电网管理、弹性网络基础设施设计等任务比竞赛编程困难多个数量级 [15] - FormulaOne通过实时排行榜和评估框架与社区分享 可能需要定性不同的方法突破现有局限 [18][30]
马斯克的xAI推出Grok 4 Fast:响应速度最高达标准版10倍
搜狐财经· 2025-09-15 16:28
据IT之家了解,Grok 4 Fast 的核心优势在于速度,用户反馈显示,其响应速度最高可达标准版 Grok 4 的 10 倍。两者的主要差异在于,Grok 4 Fast 经过专项 优化,通过减少复杂任务的处理时间实现快速响应。例如,若向该模型下达生成机器人 SVG 图像的指令,其输出结果会特意采用基础简化形式,这一设计 充分体现了该模型"速度优先于复杂度"的核心定位。 目前,Grok 4 Fast 仍处于"早期访问"阶段,未来可能会向免费用户开放,甚至有可能取代老旧的 Grok 3。 此外,xAI 还在 Grok 网页端新增了专门的"更新日志"板块,实时公开产品的迭代进展。据悉,Grok 4 Fast 后续还将适配移动端应用。 这种设计思路对于追求即时结果的用户很有帮助,Grok 4 Fast 的高速响应可大幅提升效率。不过,该模型的局限性在特定场景中也较为明显:面对创意类需 求或需精细处理的任务时,为保障响应速度,模型会在内容深度与细节丰富度上做出妥协。 值得注意的是,Grok 4 Fast 并非首次亮相,此前该模型曾以"Sonoma"为测试名称在 Arena 平台进行内测,这表明 xAI 在正式推出该模 ...
硅谷大换血,从小镇做题家到顶级AI研究员,华人为什么统治了AGI?
36氪· 2025-09-04 19:44
硅谷AI人才格局变化 - 生成式AI崛起导致硅谷人才格局向华人倾斜 华人成为AGI赛道最重要人才来源[2] - 过去二十年硅谷互联网由印度人主导 以勤奋高效执行力支撑软件产业[1] 华人AI人才占比数据 - 美国顶级AI机构中中国研究人员占比38% 超过美国本土的37%[5] - Meta超级智能实验室初始团队11人中7位华人 占比64%[6] - OpenAI的ChatGPT主创团队87人中9位华人 占比10.34%[9] - xAI创始团队12人中5位华人 占比超过40%[12] 核心团队华人成员贡献 - Meta为抢人提供四年3亿美元薪酬方案 首年可兑现超1亿美元[7] - OpenAI的GPT-4有30余位华人参与 GPT-4o关键团队17人中6位华人[10] - xAI的Tony Wu是联合创始人 Jimmy Ba提出AdamW优化算法论文引用超21万次[12] 人才输送路径模式 - 清北等顶尖院校本科+美国博士模式形成稳定高效人才输送渠道[5][14] - 30位华人核心研究者中22人遵循该路径 本科多来自清华北大中科大浙大[15] - 典型代表包括Meta赵晟佳(本科清华/博士斯坦福) 毕树超(本科浙大/博士伯克利)[16] 中国AI人才储备优势 - 中国每年计算机及相关专业毕业生超500万 是全球最大STEM人才输出国[18] - 中国活跃AI研究人员超3万名 博士博士后总数相当于美国AI研究人员两倍[18] - 美国AI研究人员约1万名 欧盟27国约2万名 英国约3000名[18] 教育体系适配性分析 - 中国基础教育强调数理基础与解题能力 培养结构化思维和耐心韧性[18][19] - 强化学习需要试错迭代特性 与中国学生熟悉的奥数解题逻辑高度契合[22] - 华人学者在NeurIPS 2020强化学习论文中占比30% 谷歌RL团队1/4-1/3毕业于中国高校[23]