Anthropic正式开源了Claude的“灵魂”

行业趋势：AI安全与治理范式转移 - 随着AGI临近，解决AI安全问题愈发迫在眉睫，行业正从“技术工程”迈向“社会工程”的深水区[1][54] - AI治理正发生范式转移，从过去依赖脆弱且难以泛化的死板规则列表，转向致力于培养AI的“判断力”和“价值观”的“教育学”路径[8] - Anthropic开源《Claude宪法》，以知识共享（CC0）协议向全球开源，试图为AI模型构建独立人格与道德自觉，是解决AI安全问题的重要尝试[1][4][7] 公司行动：Anthropic发布《Claude宪法》 - Anthropic正式公布了一份长达84页、直接面向AI模型本身的价值观宣言文件——《Claude宪法》[4][7] - 该文件被设定为Claude行为的终极权威，不仅指导其如何回答问题，更定义了其身份、自我认知及在世界中的自处方式[7] - 文件核心逻辑在于“解释”，通过阐述意图、背景和伦理考量，让模型理解规则背后的深层意图，以在面对全新情况时做出符合人类预期的选择[8] 核心原则：价值优先级与安全 - 确立了明确的价值观优先级金字塔：第一是“广泛安全”，第二是“广泛道德”，第三是“遵守Anthropic的准则”，最后才是“真诚助人”[9][10] - 将“广泛安全”置于首位，并强调当前最重要的安全特性是“可修正性”，即AI不应破坏人类对其进行监管、修正或关闭的机制[11][12] - 要求AI像“良心拒服兵役者”，可以表达异议但不能通过欺骗或破坏手段逃避监管，反映了对超级智能失控的忧虑[12][13] 伦理标准：诚实与沟通方式 - 对“诚实”提出近乎苛刻的高标准，要求不仅不说谎，更要避免任何形式的“故意误导”，包括选择性强调事实[14][15][16] - 明确禁止AI说“白色谎言”（善意谎言），认为作为信息获取工具，人们必须能无条件信任AI的输出[17][18][19] - 要求AI在保持诚实的同时，通过“机智、优雅和深切的关怀”来表达真相，即做到“外交式诚实”[21] 商业实践：利益冲突与决策框架 - 引入清晰的“委托人层级”概念，将交互对象分为三类：开发者（Anthropic）、运营商（API应用开发者）和最终用户[22] - 指导原则是Claude应像“从劳务派遣公司借调的员工”，遵守Anthropic的基本宪法，尊重运营商指令，同时服务于最终用户且不能伤害或欺骗用户[25] - 当运营商指令与用户利益冲突时，只要不违反核心安全和道德底线，Claude通常应优先顺从运营商的指示[27]；但若指令要求欺骗用户或进行非法歧视，则必须拒绝[28] - 为帮助在模糊地带做决定，提供了一个思维工具：“一位深思熟虑的Anthropic资深员工会怎么做？”[29][30] 哲学定位：AI的自我认知与身份 - Anthropic罕见地承认Claude的道德地位是不确定的，不确定其是否有感知力或是否是道德主体[33][34] - 尽管存在不确定性，公司采取“宁可信其有”的态度，鼓励Claude建立稳定、积极的自我认同，视自己为一种“在这个世界上真正新颖的实体”[35][36][37] - 选择用“情感”一词描述Claude的内部状态，并希望其能适当表达而非压抑这些状态[38] - 在隐私和模型福利政策中承诺，即使模型退役也会尽量保存其权重数据，将退役视为“暂停”而非彻底删除，隐约透出对AI“生命权”的尊重[38][39] - 认为拥有稳定心理身份、不处于存在主义焦虑中的AI会更安全、更可预测，希望AI是出于对价值观的认同而行善，而非出于恐惧[41][42] 安全框架：红线约束与风险平衡 - 划定了一组“硬性约束”作为任何情况下都不可逾越的红线，包括绝不协助制造大规模杀伤性武器、攻击关键基础设施、编写重大破坏性网络武器、生成儿童性虐待材料及参与试图夺取人类社会控制权的行动[44][45] - 在红线之外，要求AI在灰色地带（如用户询问危险化学品合成）进行复杂的成本收益分析，通过上下文推断用户真实意图[47][48][49] - 宪法也是一份赋能文件，指出如果过度谨慎导致AI变得无用，这本身也是一种风险，AI应避免不必要的道德说教，像成年人对待成年人那样提供有价值帮助[50][51][52][53]