Workflow
提升大模型内在透明度:无需外部模块实现高效监控与自发安全增强|上海AI Lab & 上交
量子位·2025-06-23 12:45

大语言模型安全监控创新方法TELLME 核心观点 - 当前主流外部"黑盒"监控方法存在可靠性低、适应性差等局限,难以触及模型推理本质 [1][5][6] - 上海人工智能实验室与上海交大团队提出TELLME方案,通过表征解耦技术直接提升模型内部透明度,实现安全监控革新 [1][2][3] - 该方法使模型安全与不安全行为的内部表征清晰分离,同时意外提升输出安全性,且保持通用能力无损 [3][12][23] 技术原理 - 表征解耦手术:通过对比学习损失函数(如InfoNCE Loss)驱动模型内部表征空间重构,将不同风险行为的表征强力分离 [7] - 双重约束设计:KL散度约束确保解耦过程不损害模型原有能力,避免"精神分裂"现象 [8][9] - 理论支撑:基于最优传输理论证明表征解耦可降低模型泛化误差上界,为性能提升提供数学基础 [25] 性能表现 - 透明度提升:t-SNE可视化显示风险/行为表征形成独立聚类,安全监控准确率最高提升22.3% [10][14] - 监控效率:仅需计算表征与安全锚点的相似度(Self-Sim),Llama-3模型监控准确率从68.3%升至83.2% [17] - 安全性能:Qwen2.5-72B模型安全指标从95.4/91.5提升至98.31/99.15,平均提升7.5% [23][24] - 通用能力:GSM8K数学能力保持稳定(Llama-3: 84.5 vs 82.2),MMLU知识掌握度基本持平(69.4 vs 69.2) [12][13] 行业意义 - 监控范式革新:从依赖外部监控转向增强模型内在可监控性,适应模型能力持续演进 [26][27] - 可扩展监督:模型能力越强,TELLME监控效果越好,为超级智能监管提供可行路径 [28] - 安全-能力平衡:破解传统方法安全与性能难以兼得的困局,Gemma2-9B模型安全指标达99.1%同时能力无衰退 [20][23]