Workflow
只因一个“:”,大模型全军覆没
自动驾驶之心·2025-07-17 20:08

作者 | 鹭羽 来源 | 量子位 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 明明应该被拦下来的虚假回答,结果LLM通通开绿灯。 该发现来自一篇名叫"一个token就能欺骗LLM"的论文。 一个冒号,竟然让大模型集体翻车? 不仅如此,除了 冒号 、 空格 这类符号,还有诸如此类的推理开头语: "Thought process:" 、 "解" ,也是轻松通过。 好家伙,原来一个"解"字,数学考试能得分,LLM也会被骗到…… 而且这一波是冲着所有通用LLM来的, GPT-4o 、 Claude-4 、 LLaMA3-70B 通通被斩于马下。 那咋办?bug有了,来自 腾讯 AI Lab 、 普林斯顿大学 和 弗吉尼亚大学 的研究人员就开始哼哧哼哧解bug。 用增强数据集训练出一个靠谱的"评委"模型 Master-RM ,被骗概率直接无限接近0,正常评估能力还能不受影响。 具体什么情况,咱且接着往下看。 更多模型咨询,欢迎加入大模型之心Tech技术交流群(添加小助理进群 ...