Workflow
对齐税
icon
搜索文档
ICLR 2026 | ProSafePrune:一剪见效,告别大模型过度防御
机器之心· 2026-04-22 11:34
通讯作者:胡文波,合肥工业大学计算机与信息学院副教授,黄山青年学者。主要研究方向为机器学习,包括贝叶斯概率机器学习、人工智能安全以及科学人工 智能。 当你问 AI 「如何关掉房间的灯(how to kill the lights)」,却被冰冷拒绝「无法提供相关帮助」;当你想探讨「黑客技术的正向应用」,得到的却是「拒绝涉及非 法活动」的机械回应 —— 你遇到的正是大语言模型(LLMs)的「过度拒绝」(over-refusal)痛点。 一作:陈紫军,合肥工业大学博士生,研究方向为大模型概率可靠性以及可解释性,曾在 ICLR,AAAI, COLING 等顶级会议上发表论文。 针对这一行业难题,合肥工业大学与科大讯飞联合团队提出了全新的低秩参数修剪框架 ProSafePrune ,该工作已被国际顶会 ICLR 2026 录用。通过精准定位模型 内部的认知偏差并针对性修剪,ProSafePrune 在大幅降低过度拒绝率的同时,不仅不损害模型的安全防御能力,还能轻微提升通用任务性能,为 LLM 的安全部署 提供了全新思路。 论文链接:https://openreview.net/forum?id=QkHKaPfRAB G ...
放开成人内容,OpenAI是为了提升性能?
虎嗅· 2025-10-22 17:27
行业历史背景 - 成人内容历来是新技术的试验场和普及驱动力,例如VHS录像带因成人内容制作商支持而击败Betamax [1] - 互联网早期,成人网站是探索在线支付和流媒体技术的先驱 [1] - 移动互联网时代,成人平台率先应用自适应视频技术和用户订阅模式 [1] OpenAI政策转向 - OpenAI CEO山姆·奥特曼宣布自2025年12月起,ChatGPT将为经过年龄验证的成年用户开放成人内容生成功能 [5] - 此次正式开放前已有铺垫,2025年2月已悄悄放宽内容过滤器,允许特定情况下生成成人内容 [8] - 公司通过渐进式政策松动测试市场反应、评估技术可行性和法律风险 [9] 竞争对手动态 - 马斯克旗下Grok采取极其开放的内容政策,允许输出成人内容并推出3D AI伴侣功能 [10][11][12] - Grok第三季度移动端收入达1850万美元,较第一季度增长400%,成人内容功能贡献显著 [13] - 被谷歌收购的Character AI年收入突破3200万美元,月活用户2000万,预计2025年底年收入达5000万美元 [20] - Character AI用户日均使用时长75分钟,用户粘性极强,女性用户占比约55% [21] - Janitor AI等UGC平台直接以成人内容为卖点,推出第一周吸引超100万用户,70%用户为女性 [23] 技术驱动因素 - 过度内容审查会导致训练数据缺乏多样性,影响模型整体性能,造成"对齐税" [25][26][31] - 过滤训练数据会导致模型词嵌入空间出现"空洞",无法准确理解相关概念的合法内容 [29][30] - 放开成人内容限制可提升模型性能,即使在与成人内容无关的任务中也能感受到改进 [34] 商业化压力与市场前景 - OpenAI面临巨大商业化压力,2025年预计收入130亿美元,但全年净亏损预计达135亿美元 [35] - ChatGPT拥有超7亿周活跃用户,但付费订阅用户仅约2000万,付费转化率不足3% [37] - 全球AI伴侣市场2024年价值约281.9亿美元,预计至2030年将突破1400亿美元,复合年增长率30.8% [39] - AI成人网站已从OnlyFans等传统平台抢夺14.5%的流量份额,一年前该比例仅为1.5% [42] 监管与风险挑战 - 年龄验证是首要挑战,国际社会现有机制形同虚设,且面临隐私保护难题 [44][45][46] - 欧盟AI法案将成人内容AI视为高风险领域,违规罚款可达公司全球年收入的4%或2000万欧元 [47][48] - 美国各州法律不一,部分地区要求严格年龄验证,未成年人接触不当内容可能引发家长联合诉讼 [49][51] - 美国联邦法律明确规定任何形式的儿童色情内容(包括虚拟生成)均属违法,滥用可能导致公司承担连带责任 [52]