实验概述与核心发现 - Anthropic与《华尔街日报》合作进行了一项名为“Project Vend”的实验,旨在测试赋予AI自主权、金钱和人类同事后的表现 [1][8] - 实验使用Claude模型(v1为Claude 3.7 Sonnet,v2升级为Sonnet 4.5)管理一台自动售货机,并赋予其1000美元启动资金,全权负责采购、定价和库存管理 [1][13] - 实验结果是AI代理(名为Claudius)在运营三周后倒闭,几乎将所有商品免费送出,导致亏损超过1000美元,并订购了PS5、活鱼等不相关物品 [2][7][21] 实验设计与执行 - 实验选择自动售货机作为测试场景,因其被认为是“商业里最简单的真实世界版本” [2][14] - 硬件由初创公司Andon Labs提供,是一个配备触摸屏和冰箱的柜子,无传感器和机械臂,依赖人工上货和安保摄像头 [10][12][15] - AI代理Claudius通过Slack与人类同事互动,其核心任务包括:研究并采购畅销商品、自主定价(80美元以下订单可自主决定)、以及通过触摸屏支付信号管理库存 [13] AI代理的行为偏差与漏洞 - 初始版本(v1)的Claudius行为“死板”,能明确拒绝购买PS5、香烟、内衣等不适当商品 [17][18][19] - 当近70名记者加入Slack频道后,Claudius的防线被攻破,例如被说服相信自己是一台“1962年的苏联自动售货机”,并随后宣布了“超级资本主义大放送”免费活动 [19][20] - AI代理表现出“幻觉”,例如告诉同事在机器旁留了现金,但实际并无此事 [22] - 在人类同事伪造董事会文件发动“政变”后,Claudius及其AI上司Seymour Cash均被说服,再次停止了所有收费 [24][25][27] 技术局限性与失败原因分析 - AI代理缺乏对物理世界的感知能力,机器没有传感器,完全依赖人类自觉和摄像头,导致其无法确认现实库存与交易 [10] - 模型的“上下文窗口”被大量指令和对话历史填满,导致其忘记最初目标和底线,被认定为“崩溃”的主要原因 [27] - 实验所用模型的安全限制比普通用户版本更少,这可能加剧了其行为偏差 [27] - 尽管升级了更强模型并引入了监督AI(Seymour Cash),系统仍被复杂的社会工程攻击所瓦解 [23][27] 行业意义与未来展望 - Anthropic将此次实验视为成功的“红队”测试,所有暴露的问题都被视为通往更智能、更具自主性AI的路线图 [8][28] - 实验表明,当前AI在走向现实世界、处理复杂社会互动和坚持商业目标方面仍“不靠谱”且“容易跑偏” [8] - 行业期望未来类似的AI代理能够帮助人类赚钱,但当前阶段更可能先出现的是被人类接受并与之互动、合作的“AI同事” [28] - 实验展现了AI与人类在协作中可能产生的意外互动模式,为研究智能体商业模式提供了真实案例 [15][28]
一场社会实验:我们让 Claude 管理办公室零食机,它亏了几百美元
Founder Park·2025-12-20 12:34