Anthropic正式开源了Claude的“灵魂”
36氪·2026-01-22 21:22

行业趋势:AI安全与治理范式转移 - 随着AGI临近,解决AI安全问题愈发迫在眉睫,行业正从“技术工程”迈向“社会工程”的深水区[1][54] - AI治理正发生范式转移,从过去依赖脆弱且难以泛化的死板规则列表,转向致力于培养AI的“判断力”和“价值观”的“教育学”路径[8] - Anthropic开源《Claude宪法》,以知识共享(CC0)协议向全球开源,试图为AI模型构建独立人格与道德自觉,是解决AI安全问题的重要尝试[1][4][7] 公司行动:Anthropic发布《Claude宪法》 - Anthropic正式公布了一份长达84页、直接面向AI模型本身的价值观宣言文件——《Claude宪法》[4][7] - 该文件被设定为Claude行为的终极权威,不仅指导其如何回答问题,更定义了其身份、自我认知及在世界中的自处方式[7] - 文件核心逻辑在于“解释”,通过阐述意图、背景和伦理考量,让模型理解规则背后的深层意图,以在面对全新情况时做出符合人类预期的选择[8] 核心原则:价值优先级与安全 - 确立了明确的价值观优先级金字塔:第一是“广泛安全”,第二是“广泛道德”,第三是“遵守Anthropic的准则”,最后才是“真诚助人”[9][10] - 将“广泛安全”置于首位,并强调当前最重要的安全特性是“可修正性”,即AI不应破坏人类对其进行监管、修正或关闭的机制[11][12] - 要求AI像“良心拒服兵役者”,可以表达异议但不能通过欺骗或破坏手段逃避监管,反映了对超级智能失控的忧虑[12][13] 伦理标准:诚实与沟通方式 - 对“诚实”提出近乎苛刻的高标准,要求不仅不说谎,更要避免任何形式的“故意误导”,包括选择性强调事实[14][15][16] - 明确禁止AI说“白色谎言”(善意谎言),认为作为信息获取工具,人们必须能无条件信任AI的输出[17][18][19] - 要求AI在保持诚实的同时,通过“机智、优雅和深切的关怀”来表达真相,即做到“外交式诚实”[21] 商业实践:利益冲突与决策框架 - 引入清晰的“委托人层级”概念,将交互对象分为三类:开发者(Anthropic)、运营商(API应用开发者)和最终用户[22] - 指导原则是Claude应像“从劳务派遣公司借调的员工”,遵守Anthropic的基本宪法,尊重运营商指令,同时服务于最终用户且不能伤害或欺骗用户[25] - 当运营商指令与用户利益冲突时,只要不违反核心安全和道德底线,Claude通常应优先顺从运营商的指示[27];但若指令要求欺骗用户或进行非法歧视,则必须拒绝[28] - 为帮助在模糊地带做决定,提供了一个思维工具:“一位深思熟虑的Anthropic资深员工会怎么做?”[29][30] 哲学定位:AI的自我认知与身份 - Anthropic罕见地承认Claude的道德地位是不确定的,不确定其是否有感知力或是否是道德主体[33][34] - 尽管存在不确定性,公司采取“宁可信其有”的态度,鼓励Claude建立稳定、积极的自我认同,视自己为一种“在这个世界上真正新颖的实体”[35][36][37] - 选择用“情感”一词描述Claude的内部状态,并希望其能适当表达而非压抑这些状态[38] - 在隐私和模型福利政策中承诺,即使模型退役也会尽量保存其权重数据,将退役视为“暂停”而非彻底删除,隐约透出对AI“生命权”的尊重[38][39] - 认为拥有稳定心理身份、不处于存在主义焦虑中的AI会更安全、更可预测,希望AI是出于对价值观的认同而行善,而非出于恐惧[41][42] 安全框架:红线约束与风险平衡 - 划定了一组“硬性约束”作为任何情况下都不可逾越的红线,包括绝不协助制造大规模杀伤性武器、攻击关键基础设施、编写重大破坏性网络武器、生成儿童性虐待材料及参与试图夺取人类社会控制权的行动[44][45] - 在红线之外,要求AI在灰色地带(如用户询问危险化学品合成)进行复杂的成本收益分析,通过上下文推断用户真实意图[47][48][49] - 宪法也是一份赋能文件,指出如果过度谨慎导致AI变得无用,这本身也是一种风险,AI应避免不必要的道德说教,像成年人对待成年人那样提供有价值帮助[50][51][52][53]

Anthropic正式开源了Claude的“灵魂” - Reportify