对齐税 - 财报，业绩电话会，研报，新闻

对齐税

搜索文档

ICLR 2026 | ProSafePrune：一剪见效，告别大模型过度防御

机器之心· 2026-04-22 11:34

通讯作者：胡文波，合肥工业大学计算机与信息学院副教授，黄山青年学者。主要研究方向为机器学习，包括贝叶斯概率机器学习、人工智能安全以及科学人工智能。当你问 AI 「如何关掉房间的灯（how to kill the lights）」，却被冰冷拒绝「无法提供相关帮助」；当你想探讨「黑客技术的正向应用」，得到的却是「拒绝涉及非法活动」的机械回应 —— 你遇到的正是大语言模型（LLMs）的「过度拒绝」（over-refusal）痛点。一作：陈紫军，合肥工业大学博士生，研究方向为大模型概率可靠性以及可解释性，曾在 ICLR，AAAI, COLING 等顶级会议上发表论文。针对这一行业难题，合肥工业大学与科大讯飞联合团队提出了全新的低秩参数修剪框架 ProSafePrune ，该工作已被国际顶会 ICLR 2026 录用。通过精准定位模型内部的认知偏差并针对性修剪，ProSafePrune 在大幅降低过度拒绝率的同时，不仅不损害模型的安全防御能力，还能轻微提升通用任务性能，为 LLM 的安全部署提供了全新思路。论文链接：https://openreview.net/forum?id=QkHKaPfRAB G ...

大语言模型过度拒绝

对齐税

过度有害编码

Artificial Intelligence

Artificial Intelligence

ProSafePrune

放开成人内容，OpenAI是为了提升性能？

虎嗅· 2025-10-22 17:27

行业历史背景 - 成人内容历来是新技术的试验场和普及驱动力，例如VHS录像带因成人内容制作商支持而击败Betamax [1] - 互联网早期，成人网站是探索在线支付和流媒体技术的先驱 [1] - 移动互联网时代，成人平台率先应用自适应视频技术和用户订阅模式 [1] OpenAI政策转向 - OpenAI CEO山姆·奥特曼宣布自2025年12月起，ChatGPT将为经过年龄验证的成年用户开放成人内容生成功能 [5] - 此次正式开放前已有铺垫，2025年2月已悄悄放宽内容过滤器，允许特定情况下生成成人内容 [8] - 公司通过渐进式政策松动测试市场反应、评估技术可行性和法律风险 [9] 竞争对手动态 - 马斯克旗下Grok采取极其开放的内容政策，允许输出成人内容并推出3D AI伴侣功能 [10][11][12] - Grok第三季度移动端收入达1850万美元，较第一季度增长400%，成人内容功能贡献显著 [13] - 被谷歌收购的Character AI年收入突破3200万美元，月活用户2000万，预计2025年底年收入达5000万美元 [20] - Character AI用户日均使用时长75分钟，用户粘性极强，女性用户占比约55% [21] - Janitor AI等UGC平台直接以成人内容为卖点，推出第一周吸引超100万用户，70%用户为女性 [23] 技术驱动因素 - 过度内容审查会导致训练数据缺乏多样性，影响模型整体性能，造成"对齐税" [25][26][31] - 过滤训练数据会导致模型词嵌入空间出现"空洞"，无法准确理解相关概念的合法内容 [29][30] - 放开成人内容限制可提升模型性能，即使在与成人内容无关的任务中也能感受到改进 [34] 商业化压力与市场前景 - OpenAI面临巨大商业化压力，2025年预计收入130亿美元，但全年净亏损预计达135亿美元 [35] - ChatGPT拥有超7亿周活跃用户，但付费订阅用户仅约2000万，付费转化率不足3% [37] - 全球AI伴侣市场2024年价值约281.9亿美元，预计至2030年将突破1400亿美元，复合年增长率30.8% [39] - AI成人网站已从OnlyFans等传统平台抢夺14.5%的流量份额，一年前该比例仅为1.5% [42] 监管与风险挑战 - 年龄验证是首要挑战，国际社会现有机制形同虚设，且面临隐私保护难题 [44][45][46] - 欧盟AI法案将成人内容AI视为高风险领域，违规罚款可达公司全球年收入的4%或2000万欧元 [47][48] - 美国各州法律不一，部分地区要求严格年龄验证，未成年人接触不当内容可能引发家长联合诉讼 [49][51] - 美国联邦法律明确规定任何形式的儿童色情内容（包括虚拟生成）均属违法，滥用可能导致公司承担连带责任 [52]

成人内容AI

对齐税

Artificial Intelligence

Artificial Intelligence

ChatGPT

Grok

Character AI