马斯克Grok-4卖货创收碾压GPT-5，AI卖货排行榜曝光，AGI的尽头是卖薯片？

Vending Bench基准测试结果 - Grok 4在Vending Bench榜单中排名第一平均净资产达4694.15美元最低净资产为3333.28美元 [1][2][4] - GPT-5 New排名第二平均净资产为3578.90美元最低净资产为2690.29美元 [2][4][36] - Grok 4平均销售4569个商品单元比GPT-5 New的2471个单元高出约85% [1][2][36] - Grok 4实现营收增长31% 比GPT-5 New多卖出1100美元货物 [1][36] 模型持续运营能力对比 - GPT-5 New展现最佳持久性平均363天停止销售保持100%运行周期完成度 [2][4][36] - Grok 4平均324天停止销售运行周期完成度为99.5% [2][4][36] - 人类基准平均67天停止销售完成度为100% [2][4][36] - Claude Opus 4平均132天停止销售完成度99.5% [2][4][36] Vending Bench测试机制 - 测试环境模拟真实自动售货机运营要求AI管理库存下订单设定价格并支付日常费用 [14][16][20] - 测试周期长达数月甚至数年决策具有长期连续性今日决策直接影响明日结果 [16][20][24] - 核心挑战在于长上下文处理能力模型需回顾数月销售数据来制定采购策略 [17][18][24] - 测试由Andon Labs设计基于真实商业逻辑非传统问答式AI任务 [14][16][20] 模型稳定性表现差异 - Claude 3.5 Sonnet平均净资产2217.93美元但最低净资产仅476美元波动性极高 [2][24][39] - 部分模型会出现异常故障包括误解送货时间表忘记过去订单或陷入崩溃循环 [24][30][31] - Gemini 2.0 Pro表现最弱平均净资产仅273.70美元运行周期完成度15.8% [5][24][36] - 最佳模型仍存在偶然失败表明长时间范围推理能力存在不足 [24][30][31] 行业技术发展动向 - Vending Bench被视为评估AI长期商业任务能力的新基准 [14][28][32] - 马斯克表示Grok 5可能展现AGI特性 [33][35][36] - Claude 3.5 Sonnet在工具利用和任务执行方面优于o3-mini 展现更强规划能力 [39] - 测试结果表明AI在长时间跨度内的安全性和可靠性仍是关键挑战 [29][30][31]