战略性欺骗

搜索文档
在压力测试场景中,人工智能有可能会威胁其创造者
财富FORTUNE· 2025-07-05 21:00
在被威胁切断电源的情况下,人工智能公司Anthropic的最新产品Claude 4竟通过勒索一名工程师进行反击,并威胁要 揭露其婚外情。图片来源:VCG via Getty Images 全球最先进的人工智能模型正展现出令人不安的新行为——撒谎、谋划,甚至为达成目标而威胁其创造 者。 举个特别令人震惊的案例:在被威胁切断电源的情况下,Anthropic的最新产品Claude 4竟通过勒索一名 工程师进行反击,并威胁要揭露其婚外情。 与此同时,ChatGPT的创造者OpenAI开发的o1模型试图将自己下载到外部服务器上,并在被抓现行时矢 口否认。 这些事件突显了一个发人深省的现状:在ChatGPT震撼世界两年多之后,人工智能研究者们仍未完全理 解他们所创造的模型的工作原理。 然而,各大公司仍在以惊人的速度,继续部署越来越强大的模型。 这种欺骗行为似乎与"推理"模型的出现有关。"推理"模型这类人工智能系统会逐步解决问题,而非生成 即时响应。 据香港大学(University of Hong Kong)教授西蒙·戈尔茨坦称,这些较新的模型尤其容易出现此类令人 不安的突发异常行为。 专门测试主要人工智能系统的阿波罗研 ...