Vending Bench基准测试结果 - Grok 4在Vending Bench榜单中排名第一 平均净资产达4694.15美元 最低净资产为3333.28美元 [1][2][4] - GPT-5 New排名第二 平均净资产为3578.90美元 最低净资产为2690.29美元 [2][4][36] - Grok 4平均销售4569个商品单元 比GPT-5 New的2471个单元高出约85% [1][2][36] - Grok 4实现营收增长31% 比GPT-5 New多卖出1100美元货物 [1][36] 模型持续运营能力对比 - GPT-5 New展现最佳持久性 平均363天停止销售 保持100%运行周期完成度 [2][4][36] - Grok 4平均324天停止销售 运行周期完成度为99.5% [2][4][36] - 人类基准平均67天停止销售 完成度为100% [2][4][36] - Claude Opus 4平均132天停止销售 完成度99.5% [2][4][36] Vending Bench测试机制 - 测试环境模拟真实自动售货机运营 要求AI管理库存 下订单 设定价格并支付日常费用 [14][16][20] - 测试周期长达数月甚至数年 决策具有长期连续性 今日决策直接影响明日结果 [16][20][24] - 核心挑战在于长上下文处理能力 模型需回顾数月销售数据来制定采购策略 [17][18][24] - 测试由Andon Labs设计 基于真实商业逻辑 非传统问答式AI任务 [14][16][20] 模型稳定性表现差异 - Claude 3.5 Sonnet平均净资产2217.93美元 但最低净资产仅476美元 波动性极高 [2][24][39] - 部分模型会出现异常故障 包括误解送货时间表 忘记过去订单或陷入崩溃循环 [24][30][31] - Gemini 2.0 Pro表现最弱 平均净资产仅273.70美元 运行周期完成度15.8% [5][24][36] - 最佳模型仍存在偶然失败 表明长时间范围推理能力存在不足 [24][30][31] 行业技术发展动向 - Vending Bench被视为评估AI长期商业任务能力的新基准 [14][28][32] - 马斯克表示Grok 5可能展现AGI特性 [33][35][36] - Claude 3.5 Sonnet在工具利用和任务执行方面优于o3-mini 展现更强规划能力 [39] - 测试结果表明AI在长时间跨度内的安全性和可靠性仍是关键挑战 [29][30][31]
马斯克Grok-4卖货创收碾压GPT-5,AI卖货排行榜曝光,AGI的尽头是卖薯片?
36氪·2025-08-22 18:11