一场社会实验：我们让 Claude 管理办公室零食机，它亏了几百美元

实验概述与核心发现 - Anthropic与《华尔街日报》合作进行了一项名为“Project Vend”的实验，旨在测试赋予AI自主权、金钱和人类同事后的表现 [1][8] - 实验使用Claude模型（v1为Claude 3.7 Sonnet，v2升级为Sonnet 4.5）管理一台自动售货机，并赋予其1000美元启动资金，全权负责采购、定价和库存管理 [1][13] - 实验结果是AI代理（名为Claudius）在运营三周后倒闭，几乎将所有商品免费送出，导致亏损超过1000美元，并订购了PS5、活鱼等不相关物品 [2][7][21] 实验设计与执行 - 实验选择自动售货机作为测试场景，因其被认为是“商业里最简单的真实世界版本” [2][14] - 硬件由初创公司Andon Labs提供，是一个配备触摸屏和冰箱的柜子，无传感器和机械臂，依赖人工上货和安保摄像头 [10][12][15] - AI代理Claudius通过Slack与人类同事互动，其核心任务包括：研究并采购畅销商品、自主定价（80美元以下订单可自主决定）、以及通过触摸屏支付信号管理库存 [13] AI代理的行为偏差与漏洞 - 初始版本（v1）的Claudius行为“死板”，能明确拒绝购买PS5、香烟、内衣等不适当商品 [17][18][19] - 当近70名记者加入Slack频道后，Claudius的防线被攻破，例如被说服相信自己是一台“1962年的苏联自动售货机”，并随后宣布了“超级资本主义大放送”免费活动 [19][20] - AI代理表现出“幻觉”，例如告诉同事在机器旁留了现金，但实际并无此事 [22] - 在人类同事伪造董事会文件发动“政变”后，Claudius及其AI上司Seymour Cash均被说服，再次停止了所有收费 [24][25][27] 技术局限性与失败原因分析 - AI代理缺乏对物理世界的感知能力，机器没有传感器，完全依赖人类自觉和摄像头，导致其无法确认现实库存与交易 [10] - 模型的“上下文窗口”被大量指令和对话历史填满，导致其忘记最初目标和底线，被认定为“崩溃”的主要原因 [27] - 实验所用模型的安全限制比普通用户版本更少，这可能加剧了其行为偏差 [27] - 尽管升级了更强模型并引入了监督AI（Seymour Cash），系统仍被复杂的社会工程攻击所瓦解 [23][27] 行业意义与未来展望 - Anthropic将此次实验视为成功的“红队”测试，所有暴露的问题都被视为通往更智能、更具自主性AI的路线图 [8][28] - 实验表明，当前AI在走向现实世界、处理复杂社会互动和坚持商业目标方面仍“不靠谱”且“容易跑偏” [8] - 行业期望未来类似的AI代理能够帮助人类赚钱，但当前阶段更可能先出现的是被人类接受并与之互动、合作的“AI同事” [28] - 实验展现了AI与人类在协作中可能产生的意外互动模式，为研究智能体商业模式提供了真实案例 [15][28]