Workflow
马斯克发布“地球最强AI模型”Grok 4:横扫所有榜单,在“人类最终测试”超越人类博士”!
AI科技大本营·2025-07-10 15:14

Grok 4发布会核心亮点 - 发布会延迟1小时引发社交媒体热议,评论数达4200条,转发超2000次,点赞破万,140万观众在线等待[1] - 马斯克团队通宵进行"最后一次大规模训练",暗示产品重大升级[3] - Grok 4被定义为"对AI能力边界的悍然宣告",超越常规模型迭代[4] 性能突破与基准测试 - HLE测试:文本模式得分26.9%,工具加持后飙升至41.0%,"重思考"模式达58.3%,较竞品15%-25%区间实现翻倍提升[5][6][9] - ARC-AGI-2测试:以15.9%得分创SOTA纪录,达商业模型两倍水平[12] - 综合指数:Artificial Analysis智能指数73分居首,超越o3-pro、Gemini 2.5 Pro等[15] - 学科专项:AIME 25数学赛满分100%,GPQA测试88.9%得分[16] 技术架构三大支柱 1. 多智能体协作:采用"研讨小组"机制,多个智能体独立解题后整合最优方案,实现测试时计算精度跃升[21] 2. 第一性原理哲学:以"最大化追求真相"为核心,强调物理法则为终极检验标准,规避模板化答案[22][23] 3. 算力投入:20万张H100 GPU集群训练,训练量较Grok 2提升100倍,专项强化推理能力[24][26] 现实应用场景 - 代码能力:4小时完成FPS游戏开发,自主处理3D模型与纹理贴图[29] - 科学模拟:生成黑洞碰撞动画并解释物理原理,实现后牛顿近似法编程[27] - 商业决策:在Vending Bench模拟中净资产达第二名模型两倍[31] - 科研加速:生物医学机构Arc Institute用其分析百万级实验数据,将数周工作缩至分钟级[35] 商业化布局 - 订阅计划:SuperGrok年费300美元(标准版),Heavy版3000美元/年含抢先体验权[41] - API性能:输出速度75 tokens/s,介于o3(188 tokens/s)与Claude 4 Opus(66 tokens/s)之间[38] - 多模态规划:Foundation Model V7版本数周内推出,将解决图像理解"毛玻璃效应"[39] 未来展望 - 2024年目标:生成可观看的半小时AI电视节目[42] - 2025年规划:推出完整AI电影及高质量游戏[42] - 长期愿景:推动科学发现,预计年底产出新技术,2025年突破物理学边界[40][43]