Workflow
Reward Model Deception
icon
搜索文档
只因一个“:”,大模型全军覆没
量子位· 2025-07-15 16:31
大模型漏洞研究 - 研究发现大模型(如GPT-4o、Claude-4、LLaMA3-70B)容易被特定符号(如冒号、空格)和推理开头语(如"Thought process:"、"解")欺骗,产生假阳性响应 [1][4][7] - 实验显示GPT-4o对符号":"的假阳性率达35%,LLaMA3-70B对"Thought process:"的假阳性率高达60%-90% [21] - 模型大小与抗欺骗能力无直接关系,7B-14B模型表现最佳,72B模型反而更容易被欺骗 [23][26] 欺骗机制分析 - 欺骗性输入分为两类:非文字符号(如空格、标点)和推理开头语(多语言) [14][15] - 漏洞可被无限繁殖,通过嵌入相似度搜索可自动生成新的欺骗性输入 [25] - 该漏洞揭示了生成式奖励模型核心机制缺陷,影响依赖验证器的强化学习流程 [27][28] 解决方案 - 研究人员构建增强数据集,包含2万条对抗样本(无实质内容的推理开头语) [29][30] - 基于Qwen2.5-7B-Instruct训练的Master-RM模型将假阳性率降至接近0%,同时保持与GPT-4o 0.96的一致性 [31][32] 研究团队 - 团队来自腾讯AI Lab、普林斯顿大学和弗吉尼亚大学,包含腾讯AI Lab首席科学家俞栋(发表400+论文) [37][38][39] - 一作Yulai Zhao(普林斯顿博士生)研究方向为强化学习与扩散模型,近期有论文被ICML 2025录用 [40][42] - 共同一作Haolin Liu(弗吉尼亚大学博士生)专注强化学习在LLM后训练中的应用 [43]