Workflow
速递|黑箱倒计时:Anthropic目标在2027年构建AI透明化,呼吁AI巨头共建可解释性标准
Z Potentials·2025-04-25 11:05

Anthropic公司对AI模型可解释性的研究目标 - Anthropic首席执行官Dario Amodei设定目标:到2027年能可靠检测大多数AI模型问题并揭开AI模型黑箱 [2] - 公司已在追踪模型如何得出答案方面取得初步突破 但解码不断增强的系统仍需更多研究 [2] - 强调在缺乏更好可解释性手段的情况下部署AI系统存在重大隐患 因这些系统将成为经济、技术和国家安全的核心 [2] AI模型可解释性现状与挑战 - 行业对AI系统决策机制仍知之甚少 例如OpenAI新模型o3和o4-mini表现更优但更容易产生幻觉且原因不明 [3] - 当前无法精确理解AI执行任务时的具体选择机制 如总结文件时的词汇选择或偶尔犯错的原因 [3] - AI模型被描述为"更像是被培育而非建造出来的" 研究者知其智能提升方法但不明深层原理 [3] Anthropic的技术突破与研究进展 - 发现通过"电路"追踪AI模型思维路径的方法 例如识别出理解美国城市所属州的电路 估计模型中存在数百万个此类电路 [3] - 计划对先进AI模型进行"脑部扫描"式诊断 以识别撒谎、追逐权力等缺陷 预计需5-10年实现 [3] - 首次投资专注于可解释性研究的初创公司 认为阐明AI决策机制未来可能带来商业优势 [3] 行业呼吁与政策建议 - 呼吁OpenAI和谷歌DeepMind加大可解释性研究投入 [5] - 建议政府实施"轻触式"监管 如要求企业披露安全实践 并提议对中国实施芯片出口管制以降低AI竞赛风险 [5] - 区别于其他科技公司 对加州AI安全法案SB 1047表示适度支持 该法案旨在为前沿AI开发者设定安全报告标准 [5] 行业发展趋势 - Anthropic推动行业从单纯提升AI性能转向深入理解模型内部机制 [6] - 预测科技行业可能在2026或2027年达成人工通用智能(AGI)里程碑 但完全理解AI模型仍需更长时间 [3]