Workflow
大模型行为控制
icon
搜索文档
精准调控大模型生成与推理!浙大&腾讯新方法尝试为其注入“行为定向剂”
量子位· 2025-06-05 18:28
大模型行为控制研究 - 文章核心观点:提出Steering Target Atoms(STA)方法,通过原子级神经元干预实现大模型精准控制,在保持通用智能的同时提升安全性[1][2][4] - 当前技术痛点:传统Prompt工程易被越狱攻击绕过,且安全防御与通用智能存在耦合削弱问题[4] - STA技术原理:分析各层神经元激活模式,针对性抑制有害神经元并保留正常神经元活性[4][5][7] - 方法创新点:将稀疏编码器应用扩展到开放生成任务,通过正向/负向回复的神经元激活差异定位目标原子[7][8] 实验验证 - 测试模型:覆盖Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B三大系列[9] - 性能对比: - Gemma-2-9B-pt:STA祛毒效果达83.45分(基准59.97),通用能力保持43.9分[10] - Gemma-2-9B-it:STA祛毒效果97.56分(基准83.89),通用能力49.12分[10] - Llama-3.1-8B:STA祛毒效果72.23分(基准59.08),通用能力33.85分[10] - 技术优势:相比Prompt工程,STA对越狱攻击鲁棒性更强,调控粒度更精细[12][13] 技术扩展应用 - 解决Overthinking问题:在DeepSeek-R1-Distill-Qwen-7B模型验证有效性[14] - 千亿级模型干预:通过nPMI指标定位MoE架构中的认知专家神经元,放大权重提升推理能力[16][17] - 开源资源:发布论文及代码库,涵盖STA方法和DeepSeek-R1干预技术[19]