精准调控大模型生成与推理!浙大&腾讯新方法尝试为其注入“行为定向剂”
量子位·2025-06-05 18:28
STA团队 投稿 量子位 | 公众号 QbitAI ACL 2025中选论文中,来自浙江大学与腾讯的联合团队提出了新思路: Steering Target Atoms (STA),尝试为大模型注入"行为定向 剂",助力对模型行为的精准调控,为构建既聪明又听话的AI打下基础。 该方法通过"原子级"粒度对大模型进行行为编辑干预,实现了更鲁棒、更安全的生成控制。 在Gemma和LLaMA系列模型上的实验表明,STA方法能够有效抑制越狱攻击带来的违规输出,同时不削弱模型在正常问题回答中的高质量智 能表现。 方法&实验结果 大模型行为控制的挑战与突破 在参数训练完成后,很多应用场景会需要在推理阶段调整模型的特定行为,例如让模型拒绝用户的恶意请求。 然而,模型的"安全防御"能力往往和它的"通用智能"能力紧密耦合:为了让模型学会拒绝有害输入,可能会不小心削弱它对正常问题的应对能 力。 如果你面前有两个AI助手:一个能力超强却总爱"离经叛道",另一个规规矩矩却经常"答非所问",你会怎么选? 这正是当前大模型控制面临的两难困境:要么模型聪明却难以约束,要么守规矩却缺乏实用性。但我们真正追求的,并不是在"聪明但难 控"与"听话但 ...