Workflow
安全框架
icon
搜索文档
“最怕”AI失控的人,放弃了?
36氪· 2026-02-26 17:35
Anthropic公司核心政策变更 - Anthropic公司于2026年2月24日低调发布了《负责任扩展政策》第三版,其核心变化是删除了此前版本中关于“暂停训练”的硬性承诺[1][3][4] - 新版本RSP 3.0将政策重构为两部分:一是公司可独立履行的承诺,二是需要行业与政府协调行动的更具雄心的建议方案[6] - 公司解释调整原因为,随着接近更高AI安全等级,事先精确界定所需安全措施变得愈发困难,且模型能力增长是连续的,缺乏清晰的“红线”边界[6][7][8] OpenAI公司使命陈述调整 - OpenAI在2024财年的990表格中,从其使命陈述中删除了“安全地”一词,新使命变为“确保通用人工智能造福全人类”[9][10][11] - 有评论指出,此举可能意味着公司最初用以表明其非营利和安全初心的最后一道防线被撤除[12] 行业竞争与资本压力背景 - 政策调整发生在激烈的行业竞争与巨额融资背景下:Anthropic在RSP 3.0发布前两周完成了3000亿美元融资,估值升至约3800亿美元;OpenAI据报也正敲定新一轮融资,估值可能高达8300亿美元[13] - 公司面临现实压力,Anthropic首席科学家指出,若竞争对手飞速前进,单方面承诺暂停训练没有意义[13] - 监管环境对监管不友好,政府行动迟缓,企业不愿意单方面承担安全成本,这使得公司最初设想的“由行业领导者设立标准、其他方跟进”的路径未能完全实现[13][14] 安全框架从“硬约束”转向“透明披露” - Anthropic强调,RSP 3.0并非放弃安全,而是从“做不到就不许动”的刚性承诺,转向以路线图、风险报告与外部评审为核心的“透明披露”机制[5][16] - 公司保留了实质性的安全机制,例如已在2025年5月正式激活了针对化学和生物武器风险的ASL-3级别防护标准,包括复杂的输入输出分类器[17] - 批评者担忧,透明披露依赖外部舆论和内部自律,其约束力与“硬性约束”本质不同,在巨大的资本压力和竞争焦虑下可能不足以约束实际行为[19][20] 行业安全共识与监管挑战 - AI安全框架在行业内普遍存在,但被质疑其目的更多是公关语言,用于向监管机构和公众表明责任,而非实质性的自我约束[20] - 企业单方面守住安全红线的成本越来越高,而外部的、由政府主导的多边协调约束机制尚未建立,形成了一个监管真空期[21][22][23] - 核心问题在于,如果企业不再或无法设定有效的安全红线,那么应由谁来设定这一界限,目前尚无清晰答案[23]