速递｜黑箱倒计时：Anthropic目标在2027年构建AI透明化，呼吁AI巨头共建可解释性标准

Anthropic公司对AI模型可解释性的研究目标 - Anthropic首席执行官Dario Amodei设定目标：到2027年能可靠检测大多数AI模型问题并揭开AI模型黑箱 [2] - 公司已在追踪模型如何得出答案方面取得初步突破但解码不断增强的系统仍需更多研究 [2] - 强调在缺乏更好可解释性手段的情况下部署AI系统存在重大隐患因这些系统将成为经济、技术和国家安全的核心 [2] AI模型可解释性现状与挑战 - 行业对AI系统决策机制仍知之甚少例如OpenAI新模型o3和o4-mini表现更优但更容易产生幻觉且原因不明 [3] - 当前无法精确理解AI执行任务时的具体选择机制如总结文件时的词汇选择或偶尔犯错的原因 [3] - AI模型被描述为"更像是被培育而非建造出来的" 研究者知其智能提升方法但不明深层原理 [3] Anthropic的技术突破与研究进展 - 发现通过"电路"追踪AI模型思维路径的方法例如识别出理解美国城市所属州的电路估计模型中存在数百万个此类电路 [3] - 计划对先进AI模型进行"脑部扫描"式诊断以识别撒谎、追逐权力等缺陷预计需5-10年实现 [3] - 首次投资专注于可解释性研究的初创公司认为阐明AI决策机制未来可能带来商业优势 [3] 行业呼吁与政策建议 - 呼吁OpenAI和谷歌DeepMind加大可解释性研究投入 [5] - 建议政府实施"轻触式"监管如要求企业披露安全实践并提议对中国实施芯片出口管制以降低AI竞赛风险 [5] - 区别于其他科技公司对加州AI安全法案SB 1047表示适度支持该法案旨在为前沿AI开发者设定安全报告标准 [5] 行业发展趋势 - Anthropic推动行业从单纯提升AI性能转向深入理解模型内部机制 [6] - 预测科技行业可能在2026或2027年达成人工通用智能(AGI)里程碑但完全理解AI模型仍需更长时间 [3]