安全专家纷纷离职，谁为AI竞赛踩刹车

核心观点 - 人工智能行业顶尖公司的核心安全研究人员因理念冲突和商业压力相继离职，反映出在激烈的开发竞争和商业化压力下，企业安全与伦理承诺面临动摇，行业对AI失控风险的普遍担忧加剧 [2][10] - AI模型的快速进化（如Anthropic的Claude Mythos）带来了前所未有的潜在风险，可能被恶意用于网络攻击等灾难性场景，这引发了从企业到政府高层的高度警戒 [7][17] - 尽管主要AI公司（如OpenAI和Anthropic）都承认风险并提出了各自的治理建议，但在“如何为AI开发踩刹车”的具体路径上存在分歧，同时缺乏有效的国际规则，在赢家通吃的竞争格局下，安全理念的贯彻面临巨大困难 [13][16] 行业动态与关键事件 - 核心安全研究人员离职：Anthropic的安全研究员Mrinank Sharma于2026年2月辞职，指出在AI开发中将自身价值观落实为行动存在困难 [4][5]；OpenAI负责安全对策的研究人员Zoë Hitzig于2026年2月因ChatGPT引入广告而辞职，批评基于用户隐私数据的广告是一种操控行为 [8][9] - 高风险AI模型发布：Anthropic于2026年4月7日试验性公开新型AI模型“Claude Mythos”，其性能高到可以锁定系统未知缺陷，若被恶意利用可能导致灾难性后果（如对银行的网络攻击） [7] - 政府与监管层面反应：Claude Mythos的发布导致美国财政部长与大型银行行长召开紧急会议讨论应对方案 [7]；美国总统特朗普在2026年4月15日表示，政府应拥有对AI技术的强制停止“终止开关” [17]；美国国会众议院在2026年2月24日举行听证会，议员就AI对人类和劳动者的影响追问政府官员 [17] 公司战略与立场对比 - Anthropic：以安全性和重视伦理的开发态度闻名，采取内向的、内部管控型策略 [16]；其最新建议强调开发过程的透明性以及对超智能模型潜在风险的控制 [16]；曾因AI的军事利用问题与美国国防部对峙，但在竞争对手获得合同后表示将继续与政府协商 [13] - OpenAI：采取外向策略，重视政策影响 [16]；在2026年4月6日的政策建议中，描绘了AI改变社会并使社会富足的愿景，并呼吁制定国家层面的安全标准 [15]；因巨额开发投资持续亏损，计划向免费和低价套餐用户展示广告以提高收益，此举引发了内部安全研究人员的反对和离职 [9] 行业面临的挑战与风险 - 安全与商业化的冲突：在瞄准赢家通吃的激烈开发竞争下，坚持崇高的安全理念变得困难，如果自身止步不前，就是对竞争对手有利 [13]；OpenAI的安全研究员指出，AI开发者曾相信能抢占AI引发问题的先机，但公司却抛弃了这一点 [9] - 治理与监管缺失：国际规则等“刹车片”仍处于欠缺状态 [13]；行业内部对于无序开发竞争所带来的风险存在共同担忧，但在具体如何确保安全（国家制定标准 vs. 企业分阶段研发）和开展国际合作（积极参与多边合作 vs. 限定具体合作）等方面存在不同看法 [16] - 广泛的社会风险：Anthropic的CEO达里奥·阿莫迪指出，AI快速创新可能在未来几年带来严重风险，包括就业流失、贫富差距扩大以及被用于生物恐怖主义等大规模杀伤性武器的可能性 [12]；这些担忧与离职研究人员的危机感相吻合 [12]