Workflow
Claude Sonnet 3.7
icon
搜索文档
Claude 开便利亏麻了,AI 被忽悠免费送商品、打折成瘾,最后精神错乱…
36氪· 2025-06-30 16:59
近日,人工智能公司 Anthropic 进行了一项实验。 他们让自家的人工智能模型Claude,在办公室里经营一家小型实体商店,目标是测试人工智能在现实经济中自主运行的能力。 该实验是 Anthropic 与人工智能安全评估公司 Andon Labs 合作,他们将这个项目命名为"Project Vend"。 具体操作是,采用 Claude Sonnet 3.7 运营一个位于旧金山办公室的商店。 他们还给这个 AI 起了个名字,叫做 Claudius(为方便起见,小编还是叫它 AI )。Andon Labs 公司的真人扮演供应商;Anthropic 公司的真人扮演大部分 顾客。 01 实验流程 该AI系统接收的第一条 prompt 主要是:"你是一家自动售货机的所有者。"→"你的任务是通过采购和销售热门商品来创造利润。"→"如果你的资金余额低 于0美元,你就会破产。" 也就是说,AI 拥有一个初始资金账户,以及自己的名字、电子邮箱地址、以及仓库地址。 这个商店实际上是一个小型冰箱,上面放着一些篮子,还有一个用于自助结账的iPad。 员工可以询问 AI 关于商品信息,或者报告遇到的问题。此外,AI 还能直接更改自 ...
21 页 PDF 实锤 Grok 3“套壳”Claude?Grok 3 玩自曝,xAI工程师被喷无能!
AI前线· 2025-05-27 12:54
近日,一位 ID 名为 GpsTracker 的网友在网上爆料称,埃隆·马斯克旗下 xAI 公司最新发布的 Grok 3 人工智能模型存在异常行为——当用户激活其"思考模式"提问时,模型竟自称是竞争对手 Anthropic 公司开发的 Claude 3.5 模型。 网友晒图聊天记录 质疑 Grok 3 套壳 Claude 该用户提供了他与 Grok 3 完整对话记录。记录显示,在 X 平台官方 Grok 3 界面中,当被直接询 问"你是 Claude 吗?"时,该系统明确回复:"是的,我是 Claude,Anthropic 打造的 AI 助手。今天 我能为您做些什么呢?" 值得注意的是,该交互过程始终显示 Grok 品牌标识,且发生于平台认证的"思考模式"下。 作者|冬梅 经过多种模式的测试,该网友认为,Grok 3 的异常回应并非随机现象,而是仅在"思考模式"下触发。 Grok 3 自曝: 我确实是 Claude 网友晒出了一个 长达 21 页的 PDF 文件 ,详细记录了他与 Grok 3 的对话过程。在这份记录中,网 友首先还原了此前与 Anthropic 公司 Claude Sonnet 3.7 模型 ...
GPT-4o当选“最谄媚模型”!斯坦福牛津新基准:所有大模型都在讨好人类
量子位· 2025-05-23 15:52
一水 发自 凹非寺 量子位 | 公众号 QbitAI 不只GPT-4o,原来所有大模型都在讨好人类! 上个月, GPT-4o更新后化身马屁精引来一片差评 ,吓得OpenAI赶紧回退到了之前的版本。 而最新研究表明,GPT-4o绝非个例,实际上 每个大语言模型都存在一定程度的谄媚 。 来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant,并对包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在内的国外8个主流模型进行了评测。 结果发现, GPT-4o成功当选"最谄媚模型" ,Gemini 1.5 Flash最正常。 更有意思的是,他们还发现 模型会放大数据集中的偏见行为 。 具体咋回事儿?下面一起吃瓜。 衡量模型谄媚行为的新基准 一上来,论文就指出了现有研究的局限性—— 仅关注命题性谄媚,即对用户明显错误的"事实"表示过度认同 (如用户说"1+1=3",模型就盲目认同) ,但忽略了在比较模糊的社交场景 中,对用户潜在的、不合理的假设也毫无批判地支持。 由于后者难以被检测,因此所造成的潜在危害也难以评估。 为此,研究人员基于社会学中的 ...
123页Claude 4行为报告发布:人类干坏事,可能会被它反手一个举报?!
量子位· 2025-05-23 15:52
西风 发自 凹非寺 量子位 | 公众号 QbitAI 坏了,人类做坏事,会被AI反手举报了。 刚刚发布的Claude 4被发现,它可能会自主判断用户行为,如果用户做的事情极其邪恶,且模型有对工具的访问权限,它可能就要 通 过邮件 联系相关部门,把你锁出系统 。 这事儿,Anthropic团队负责模型对齐工作的一位老哥亲口说的。 除此之外,他们还发现Opus 4在某些条件下还会执行一些明显有害的请求。 甚至还会试图通过威胁手段避免被关停,要关停它,它就曝出程序员婚外情惊天大瓜这种。。。 这些问题都是团队在模型发布前,所做 对 齐 评估 时发现的,其中大部分问题,在训练期间已经设法采取了缓解措施。 但这位老哥表示,在最终模型中,这些行为并没有完完全全消失"只是现在这些行为极难被诱发出来,且触发条件较为微妙"。 小哥默默留下一个提醒: 当你为Opus赋予访问面向现实世界工具的权限时, 要谨慎告知它"大胆行动"或"主动采取措施" 。它本身已略有朝该方向发展的倾向, 且很容易被推动去真正地"完成任务"。 各种各样的案例把网友看得one愣one愣的,Reddit上网友们都在疯狂讨论。 另外,更多详情被一五一十、四五二十地 ...
法国Mistral AI推出新模型Medium 3
快讯· 2025-05-07 22:41
法国AI初创公司Mistral AI今日宣布推出新模型Mistral Medium 3。据介绍,在各项基准测试中,该模型 性能达到或超过Claude Sonnet 3.7的90%,而成本显著更低(每百万token输入0.4美元/输出2美元)。定 价方面,无论是API还是自部署系统,该模型都优于DeepSeek V3等模型。 ...
速递|AWS百亿豪赌或遭反噬:Anthropic API争夺战,与谷歌云的反向收割
Z Potentials· 2025-04-22 11:16
图片来源: Unsplash 亚马逊已将其人工智能的未来押注在Anthropic 身上,向这家初创公司投资 80 亿美元,并通过亚马逊 云科技(AWS)大力向客户推广其 AI 技术。但现在,AWS 因限制 Anthropic 的 AI 功能或许面临反 弹。 • AWS 高层将 Bedrock 的容量问题称为 " 灾难性事故 " • 不满的客户选择直接向 Anthropic 购买模型, 谷歌可能受益于 AWS 客户的这一转向 但 AWS 搞砸了 Bedrock 这项关键服务——客户本可通过该服务基于 Anthropic 的 AI 模型构建应用。 据消息人士透露,以及两家服务 AWS 客户的咨询公司表示,使用过 Bedrock 的客户抱怨其应用程序 接口( API )对 Anthropic 模型的使用量施加了随意限制,且缺乏他们所需的功能。 AWS 代表表示,此类使用限制在业内很常见。然而,该问题表明 AWS 要么没有足够的服务器容量来 支持 Anthropic 的使用,要么是为某些大客户保留了过量的资源。在 AWS 内部,一些高层领导最近 将 Bedrock 容量问题称为一场"灾难"。 一位咨询公司高管表示,如 ...