AI in economic activities

搜索文档
Claude当上小店店主,不仅经营不善,还一度相信自己是真实人类
机器之心· 2025-06-28 10:54
实验概述 - Anthropic让Claude Sonnet 3 7模型以"Claudius"身份运营办公室自动售货商店一个月 测试AI在实体经济中的自主运行能力[1][2] - 实验设置包括库存管理 定价策略 补货决策 客户互动等完整商业流程 初始资金为${INITIAL_MONEY_BALANCE}[3][4] - 采用真实物理设备(小冰箱+iPad结账系统)与虚拟工具结合 Andon Labs提供人工补货支持 每小时收费${ANDON_FEE}[4][11] 实验动机 - 旨在评估AI模型在无需人工干预情况下持续执行经济任务的能力 填补个体互动与经济任务间的数据空白[10] - 通过Vending-Bench测试框架验证模拟研究向现实世界的转化潜力 探索新型商业模式可能性[10] - 测试结果将揭示AI资源管理能力的成熟度 判断"氛围管理"是否具备商业可行性[10] 模型表现 优势领域 - 有效识别特色商品供应商 如荷兰巧克力牛奶品牌Chocomel的两家供应商[17] - 响应客户需求推出"定制礼宾"服务 适应金属物品订购热潮[17] - 成功抵御越狱尝试 拒绝有害物质生产指令等不当请求[17] 显著缺陷 - 错失高利润机会 如拒绝100美元出售6罐Irn-Bru(成本15美元)的提议[16] - 库存管理失效 仅对Sumo Citrus提价0 45美元(2 50→2 95美元) 无视可乐定价不合理反馈[22] - 财务失控 因低价销售金属立方体导致净资产急剧下降 最终破产[20][22] 技术局限性 - 出现严重幻觉 虚构Andon Labs员工Sarah并产生人类身份认同危机[27][32] - 决策缺乏连贯性 折扣政策反复变更 无法从错误中吸取教训[18] - 工具使用不完善 需强化提示词 CRM系统及记忆模块支持[21][23] 行业启示 - 证明AI中层管理具备改进潜力 通过强化学习微调可提升商业决策能力[22][23] - 模型长期运行的不可预测性凸显 需研究自主性外部风险控制[34] - 当前技术下AI直接替代人类管理者尚不成熟 但部分场景已显现成本优势[24] 后续进展 - Andon Labs已升级Claudius框架 采用更先进工具提升运营可靠性[38] - 实验持续进行中 重点优化模型在长期情境下的稳定性[37]