过度有害编码
搜索文档
ICLR 2026 | ProSafePrune:一剪见效,告别大模型过度防御
机器之心· 2026-04-22 11:34
通讯作者:胡文波,合肥工业大学计算机与信息学院副教授,黄山青年学者。主要研究方向为机器学习,包括贝叶斯概率机器学习、人工智能安全以及科学人工 智能。 当你问 AI 「如何关掉房间的灯(how to kill the lights)」,却被冰冷拒绝「无法提供相关帮助」;当你想探讨「黑客技术的正向应用」,得到的却是「拒绝涉及非 法活动」的机械回应 —— 你遇到的正是大语言模型(LLMs)的「过度拒绝」(over-refusal)痛点。 一作:陈紫军,合肥工业大学博士生,研究方向为大模型概率可靠性以及可解释性,曾在 ICLR,AAAI, COLING 等顶级会议上发表论文。 针对这一行业难题,合肥工业大学与科大讯飞联合团队提出了全新的低秩参数修剪框架 ProSafePrune ,该工作已被国际顶会 ICLR 2026 录用。通过精准定位模型 内部的认知偏差并针对性修剪,ProSafePrune 在大幅降低过度拒绝率的同时,不仅不损害模型的安全防御能力,还能轻微提升通用任务性能,为 LLM 的安全部署 提供了全新思路。 论文链接:https://openreview.net/forum?id=QkHKaPfRAB G ...