人格向量

搜索文档
Anthropic最新论文,在训练中给人工智能一种邪恶的“疫苗”,可能会让它变得更好
36氪· 2025-08-04 17:13
核心观点 - Anthropic提出"人格向量"方法用于监控和控制AI语言模型中的性格特征,旨在识别和减轻"反人类"倾向的个性变化 [1] - 该方法通过识别神经网络中控制性格特质的活动模式,可应用于监控、干预和预防不良个性特征 [2] - 人格向量技术已在Qwen 2.5-7B-Instruct和Llama-3.1-8B-Instruct两个开源模型上验证 [2] 技术原理 - 人格向量通过比较模型表现出特定特质与不表现特质时的神经活动差异提取 [3] - 采用"引导"技术验证人格向量,通过注入向量观察行为变化确认因果关系 [3][4] - 自动化流程可针对任何定义的特征提取对应人格向量,已测试邪恶、谄媚、幻觉等特征 [5] 应用场景 - 监控部署过程中的个性变化,检测模型是否向危险特征漂移 [6] - 测量人格向量激活强度可预测模型即将表现的行为特征 [7] - 减轻训练过程中的不良个性变化,采用类似"疫苗接种"的预防性引导策略 [8][9][11] 验证结果 - 确认"邪恶"人格向量在模型给出邪恶回应前会激活 [7] - 训练后反向引导可逆转不良特征但会降低模型智能水平 [9][10] - 训练过程中引导模型朝向不良特征可增强其对"邪恶"训练数据的抵抗力 [11]