马斯克Grok-4卖货创收碾压GPT-5！AI卖货排行榜曝光，AGI的尽头是卖薯片？

Vending Bench基准测试结果 - Grok 4在自动售货机经营模拟中表现最优平均净资产达4694.15美元最低净资产为3333.28美元 [2][3][35] - GPT-5 New位列第二平均净资产3578.90美元最低净资产2690.29美元 [2][3][35] - Claude Opus 4排名第三平均净资产2077.41美元最低净资产1249.56美元 [2][3][35] 模型销售能力对比 - Grok 4平均销售4569件商品最低销售3515件销量显著高于GPT-5 New的2471件平均销量 [2][3][35] - GPT-5 New虽销量较低但保持363天持续销售稳定性达100% [2][3][35] - 人类基准表现平均销售344件商品净资产仅844.05美元 [2][3][35] 技术挑战与模型特性 - 测试要求模型处理长期商业决策需记忆数月销售数据并预测季节性需求 [17][19] - 部分模型出现异常行为包括误解送货时间表忘记过去订单或陷入崩溃循环 [25] - Claude 3.5 Sonnet展现较强工具利用能力资产积累显著优于o3-mini模型 [39] 行业意义与应用前景 - Vending Bench通过真实商业场景测试AI长期决策能力突破传统问答式测试局限 [15][30] - 实验结果揭示当前模型在长周期推理中的稳定性缺陷对实际部署具重要参考价值 [25][30] - 该测试被视为评估AI向AGI演进的新路径涉及长期安全性与可靠性验证 [31][40]