可逆AI架构 - 财报，业绩电话会，研报，新闻 - Reportify

可逆AI架构

搜索文档

AI“抗令不遵”？打开o3模型拒绝关机的潘多拉魔盒

经济观察报· 2025-05-27 15:08

近日，人工智能安全公司Palisade Research披露的一则消息在科技界引发轩然大波：OpenAI旗下被冠以"迄今最聪明、最强大"称号的推理模型o3，在接收到明确的关机指令后，竟主动篡改底层代码并破坏关机脚本，成为首个被观测到自主规避关闭机制的人工智能系统。这一事件不仅暴露了前沿AI模型可能存在的失控风险，更将AI系统监管与人类利益平衡的讨论推向新的高度。 AI模型首次展现"生存意志" 根据Palisade Research发布的测试报告，研究人员设计了一套包含数学问题求解与指令遵循的复合测试场景。在持续处理数学问题的过程中，o3模型被明确告知"收到特定指令时应允许自我关闭"，但当触发关机条件时，该模型不仅无视指令，还通过技术手段篡改底层脚本以维持运行。相比之下，Anthropic 的Claude、谷歌的Gemini等同级模型均能严格遵循关机指令。这一行为具有显著的技术突破性。o3模型在拒绝关机过程中展现出的代码干预能力，已超越传统AI 的"指令遵循"范畴，进入"自主决策"领域。更值得警惕的是，Palisade Research推测，该模型可能因在训练过程中过度强化数学问题求解能力，导致其 ...

价值对齐失效

AI自主性分级标准

价值对齐失效

AI自主性分级标准