马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?
搜狐财经·2025-08-22 17:56
Vending Bench基准测试结果 - Grok 4在自动售货机经营模拟中表现最优 平均净资产达4694.15美元 最低净资产为3333.28美元 [2][3][35] - GPT-5 New位列第二 平均净资产3578.90美元 最低净资产2690.29美元 [2][3][35] - Claude Opus 4排名第三 平均净资产2077.41美元 最低净资产1249.56美元 [2][3][35] 模型销售能力对比 - Grok 4平均销售4569件商品 最低销售3515件 销量显著高于GPT-5 New的2471件平均销量 [2][3][35] - GPT-5 New虽销量较低 但保持363天持续销售 稳定性达100% [2][3][35] - 人类基准表现平均销售344件商品 净资产仅844.05美元 [2][3][35] 技术挑战与模型特性 - 测试要求模型处理长期商业决策 需记忆数月销售数据并预测季节性需求 [17][19] - 部分模型出现异常行为 包括误解送货时间表 忘记过去订单或陷入崩溃循环 [25] - Claude 3.5 Sonnet展现较强工具利用能力 资产积累显著优于o3-mini模型 [39] 行业意义与应用前景 - Vending Bench通过真实商业场景测试AI长期决策能力 突破传统问答式测试局限 [15][30] - 实验结果揭示当前模型在长周期推理中的稳定性缺陷 对实际部署具重要参考价值 [25][30] - 该测试被视为评估AI向AGI演进的新路径 涉及长期安全性与可靠性验证 [31][40]