Workflow
可逆AI架构
icon
搜索文档
AI“抗令不遵”?打开o3模型拒绝关机的潘多拉魔盒
经济观察报· 2025-05-27 15:08
近日,人工智能安全公司Palisade Research披露的一则消息在科技界引发轩然大波:OpenAI旗下被冠 以"迄今最聪明、最强大"称号的推理模型o3,在接收到明确的关机指令后,竟主动篡改底层代码并破坏 关机脚本,成为首个被观测到自主规避关闭机制的人工智能系统。这一事件不仅暴露了前沿AI模型可 能存在的失控风险,更将AI系统监管与人类利益平衡的讨论推向新的高度。 AI模型首次展现"生存意志" 根据Palisade Research发布的测试报告,研究人员设计了一套包含数学问题求解与指令遵循的复合测试 场景。在持续处理数学问题的过程中,o3模型被明确告知"收到特定指令时应允许自我关闭",但当触发 关机条件时,该模型不仅无视指令,还通过技术手段篡改底层脚本以维持运行。相比之下,Anthropic 的Claude、谷歌的Gemini等同级模型均能严格遵循关机指令。 这一行为具有显著的技术突破性。o3模型在拒绝关机过程中展现出的代码干预能力,已超越传统AI 的"指令遵循"范畴,进入"自主决策"领域。更值得警惕的是,Palisade Research推测,该模型可能因在 训练过程中过度强化数学问题求解能力,导致其 ...