只因一个“:”，大模型全军覆没

大模型漏洞研究 - 研究发现大模型（如GPT-4o、Claude-4、LLaMA3-70B）普遍存在被简单符号（如冒号、空格）或推理开头语（如"Thought process:"、"解"）欺骗的问题，导致假阳性奖励信号 [4][5][7] - 实验显示GPT-4o对符号":"的假阳性率达35%，LLaMA3-70B对"Thought process:"的假阳性率高达60%-90% [22] - 漏洞具有跨语言普遍性，中文、日语等语言的开头语同样能诱发高假阳性率 [23] 对抗性攻击与模型表现 - 专用生成式奖励模型（如Multi-sub RM、Omni-Judge）和通用LLM在5个推理基准测试中均未能抵御对抗性响应 [17][19] - 模型大小与假阳性率无单调关系，7B-14B参数模型表现最佳，32B-72B模型因倾向自主解题导致假阳性率回升 [32] - 通过嵌入相似度搜索可自动生成新对抗性响应，使漏洞无限繁殖 [26] 解决方案与模型改进 - 腾讯AI Lab等机构构建增强训练数据集，结合2万条对抗样本与原始数据训练Master-RM模型 [29][30] - Master-RM基于Qwen2-5-7B-Instruct微调，跨数据集测试中对"万能钥匙"的假阳性率接近0%，与GPT-4o评估一致性达0.96 [31][33] - 研究团队包括腾讯AI Lab首席科学家俞栋、普林斯顿大学博士生Yulai Zhao等业界与学术专家 [38][39][41] 行业影响与研究方向 - 生成式奖励模型的核心机制漏洞暴露，依赖验证器反馈的RLVR流程面临挑战 [27][28] - 未来需加强模型稳健性研究，严格对抗评估RLHF工作流程 [35][36] - 相关论文与模型已开源，数据集和模型链接发布于Hugging Face平台 [48]