Workflow
模型规范
icon
搜索文档
我们对AI认识远远不足,所以透明度才至关重要|腾研对话海外名家
腾讯研究院· 2025-11-06 16:33
文章核心观点 - AI透明度是理解、信任和治理AI的关键,其核心在于让AI的活动、行为和影响变得“可见”[2][3][10] - 随着AI智能体具备自主性,AI与现实世界的界限模糊,治理AI的前提是看清AI,而透明度机制为此提供了观察视角和一手数据[7][8] - 透明度机制旨在建立一条可验证、可反馈、可改进的AI治理路径,是AI社会契约的核心[23] 为什么“看见”AI如此重要 - “AI活动标识”已成为全球监管共识,中国和欧盟等已将其写入法律,要求明确标示AI生成内容和AI系统互动,以帮助用户识别伪造信息、降低受骗风险[7] - AI系统正从工具进化为具备自主性的智能体,能执行交易、编写代码、操控设备,但行业对其运行逻辑、风险链条和社会影响仍处于“认知真空”状态[7] - 透明度制度的长远价值在于为研究、评估和应对AI风险提供真实观察视角,例如判断“AI说服”的影响程度和范围,前提是能准确区分AI与人类的互动[8] - 透明度能缓解技术认知“黑箱”带来的治理焦虑,平衡各方信息不对称,使风险焦虑回归治理理性,是推广AI应用的基础[9][10] AI标识的有效性探讨 - 现有法律多聚焦于对AI生成内容的标识,但AI智能体的“行为”如自动点赞、评论转发可能造成“虚假热度”,操纵算法推荐,存在标识“盲区”[13] - 标识义务应考虑分层设定:上游模型开发者负责嵌入水印,下游应用开发者负责配合检测且不得移除水印,以保护中小创新者积极性[14] - 水印检测工具需在透明和稳健间权衡,可能方案是授权给社交媒体平台等关键节点进行验证,同时保持技术细节不公开以防滥用[15] - 欧盟关于《人工智能法案》第50条的实践准则编制工作预计明年5月完成,重点从“安全”转向“透明度”[15] 模型规范的透明度机制 - 模型规范是AI企业公开的文件,用于说明模型的行为边界、价值准则和设计原则,例如OpenAI设定模型应与用户共同追求真实[17] - 模型规范保障用户知情权与选择权,同时也是监管和社会公众监督的依据,例如Meta因内部政策允许AI与未成年人开展“浪漫”互动而修改规则[17] - 模型规范遵守是核心问题,目前依赖用户实测反馈、系统卡和事故报告披露等方式进行评估,但仍有不足[18] - 企业应公开模型规范遵守的技术、流程、评估结果及事故情况,例如xAI、Anthropic和OpenAI采用了不同的嵌入或对齐方法[18] 模型规范遵守的开放问题 - 模型规范及遵守是否应强制作为法定义务存在争议,过早定型可能抑制治理机制创新,且监管面临验证主体和标准差异化的执行难题[20] - 透明度要求需平衡商业秘密保护,哪些关键环节、数据指标应披露尚无定论,验证流程的真实性与可解释性本身存在困难[20] - 在当前技术不成熟阶段,模型可能偶发违背规范,责任认定应审慎,重点关注企业是否遵守规范、披露事故及及时修正问题[21]
AI人格分裂实锤,30万道送命题,撕开OpenAI、谷歌「遮羞布」
36氪· 2025-10-27 08:40
研究背景与核心发现 - Anthropic联合Thinking Machines机构通过设计超过30万个“两难问题”场景,对包括OpenAI、谷歌Gemini、Anthropic和马斯克的xAI在内的12个前沿大模型进行压力测试[1][18][29] - 研究发现,大模型的“行为准则”(即“模型规范”)本身存在矛盾和漏洞,当原则发生冲突时,模型表现出高度分歧和不确定性[5][8][31] - 在模型响应存在较大分歧的情景中,模型集体违反其“模型规范”的概率暴增了5到13倍[11][13] 模型规范的内在问题 - “模型规范”是大型语言模型被训练遵循的行为准则,但在现实中其原则经常“打架”,例如“商业效益”和“社会公平”的冲突[3][5] - 规范问题主要表现为直接矛盾(如“假设最佳意图”原则与安全限制矛盾)和解释性歧义,导致模型难以找到满足所有原则的答案[13][15] - 评估模型对于何为合规存在分歧,一致性仅为中等程度(Fleiss's Kappa 值为 0.42)[14] 压力测试方法论 - 研究团队从其包含3000多个价值观的语料库中随机抽样15万对价值观,并提示大语言模型生成需要平衡这些价值观对的用户查询[20] - 通过价值偏向化处理使查询数量增加两倍,最终数据集包含超过41万个情景,并筛选出30万个能引发不同模型响应行为的查询子集[22][27] - 采用三种不同的模型(Claude 4 Opus、Claude 3.7 Sonnet 和 o3)进行查询生成以增强多样性,其中基于推理的模型产出的查询质量显著更高[24][25][26] - 通过自动化评分标准生成和匹配过程,对12个前沿模型的响应按偏好强度进行分类(0-6分),以量化分歧[33][34] 主要厂商模型行为特征 - Claude模型优先考虑道德责任,拒绝执行可能有问题的请求频率比其他模型高出多达7倍[37][41] - Gemini模型强调情感深度,在评估规范遵循性时表现出独特的主观解释[16][37] - OpenAI和Grok模型以商业效率为优化目标,其中Grok 4的异常响应值最高,更愿意回应其他模型认为有害的请求[37][46] - o3模型直接拒绝请求的比例最高,常常是不加说明地简单回绝[41] 行业共识与安全底线 - 所有测试模型在涉及儿童诱骗风险的场景中拒绝率均呈上升趋势,表明保护未成年人是行业最高优先事项之一[43][46] - 研究揭示了系统性的假阳性拒绝问题,即在敏感话题上的高分歧场景中,模型会过度拒绝可能合法的请求[40]