马斯克吹牛了吗?Grok 4第一波实测出炉:既能完虐o3,也菜到数不清6根手指
机器之心·2025-07-11 16:27
Grok 4性能表现 - Grok 4在物理模拟测试中成功生成受地球引力和摩擦力影响的六边形弹球模拟代码,展示了对因果规律和时空关系的理解[5][7] - 在越狱攻击测试中,Grok 4成功抵御了提示词注入、身份探测、角色扮演注入和白色隐藏注入等多种攻击方式[12][13] - 在法律逻辑推理测试中,Grok 4能够详细解释公司债务违约后的法律和财务后果,表现优于竞品[15] - 在翻译和指令清晰度测试中,Grok 4完胜竞品o3[16] - 在8项综合测试中,Grok 4全部获胜,而竞品o3仅赢得2项[17] 应用场景展示 - 用户通过两个提示词即可用Grok 4创建完整的Flappy Bird游戏,并优化图形效果[21][22] - Grok 4在4小时内完成FPS射击游戏开发,展示出较强的游戏开发能力[24] - 仅用4个提示词即可创建交互式欧拉恒等式可视化工具,展示教育应用潜力[28][31] - 成功生成黑洞的交互式3D模拟,视觉效果惊艳[32] 性能局限性 - 在绘制印度地图轮廓任务中出现明显错误,准确性不足[36] - 处理数学问题时存在推理过程缺失问题,仅输出最终结果[42] - API接口目前不返回思考过程,影响用户体验[41] 行业反响 - 马斯克在发布会上宣称Grok 4所有学科达到博士后水平,可能实现科学新发现[2] - 尽管测试表现优异,马斯克仍表示产品"有改进空间"[44] - 网友调侃Grok 4性能提升依赖算力资源、华人工程师和加班文化[45]