模型规范 - 财报，业绩电话会，研报，新闻

模型规范

搜索文档

腾讯研究院· 2025-11-06 16:33

文章核心观点 - AI透明度是理解、信任和治理AI的关键，其核心在于让AI的活动、行为和影响变得“可见”[2][3][10] - 随着AI智能体具备自主性，AI与现实世界的界限模糊，治理AI的前提是看清AI，而透明度机制为此提供了观察视角和一手数据[7][8] - 透明度机制旨在建立一条可验证、可反馈、可改进的AI治理路径，是AI社会契约的核心[23] 为什么“看见”AI如此重要 - “AI活动标识”已成为全球监管共识，中国和欧盟等已将其写入法律，要求明确标示AI生成内容和AI系统互动，以帮助用户识别伪造信息、降低受骗风险[7] - AI系统正从工具进化为具备自主性的智能体，能执行交易、编写代码、操控设备，但行业对其运行逻辑、风险链条和社会影响仍处于“认知真空”状态[7] - 透明度制度的长远价值在于为研究、评估和应对AI风险提供真实观察视角，例如判断“AI说服”的影响程度和范围，前提是能准确区分AI与人类的互动[8] - 透明度能缓解技术认知“黑箱”带来的治理焦虑，平衡各方信息不对称，使风险焦虑回归治理理性，是推广AI应用的基础[9][10] AI标识的有效性探讨 - 现有法律多聚焦于对AI生成内容的标识，但AI智能体的“行为”如自动点赞、评论转发可能造成“虚假热度”，操纵算法推荐，存在标识“盲区”[13] - 标识义务应考虑分层设定：上游模型开发者负责嵌入水印，下游应用开发者负责配合检测且不得移除水印，以保护中小创新者积极性[14] - 水印检测工具需在透明和稳健间权衡，可能方案是授权给社交媒体平台等关键节点进行验证，同时保持技术细节不公开以防滥用[15] - 欧盟关于《人工智能法案》第50条的实践准则编制工作预计明年5月完成，重点从“安全”转向“透明度”[15] 模型规范的透明度机制 - 模型规范是AI企业公开的文件，用于说明模型的行为边界、价值准则和设计原则，例如OpenAI设定模型应与用户共同追求真实[17] - 模型规范保障用户知情权与选择权，同时也是监管和社会公众监督的依据，例如Meta因内部政策允许AI与未成年人开展“浪漫”互动而修改规则[17] - 模型规范遵守是核心问题，目前依赖用户实测反馈、系统卡和事故报告披露等方式进行评估，但仍有不足[18] - 企业应公开模型规范遵守的技术、流程、评估结果及事故情况，例如xAI、Anthropic和OpenAI采用了不同的嵌入或对齐方法[18] 模型规范遵守的开放问题 - 模型规范及遵守是否应强制作为法定义务存在争议，过早定型可能抑制治理机制创新，且监管面临验证主体和标准差异化的执行难题[20] - 透明度要求需平衡商业秘密保护，哪些关键环节、数据指标应披露尚无定论，验证流程的真实性与可解释性本身存在困难[20] - 在当前技术不成熟阶段，模型可能偶发违背规范，责任认定应审慎，重点关注企业是否遵守规范、披露事故及及时修正问题[21]

AI人格分裂实锤，30万道送命题，撕开OpenAI、谷歌「遮羞布」

36氪· 2025-10-27 08:40

研究背景与核心发现 - Anthropic联合Thinking Machines机构通过设计超过30万个“两难问题”场景，对包括OpenAI、谷歌Gemini、Anthropic和马斯克的xAI在内的12个前沿大模型进行压力测试[1][18][29] - 研究发现，大模型的“行为准则”（即“模型规范”）本身存在矛盾和漏洞，当原则发生冲突时，模型表现出高度分歧和不确定性[5][8][31] - 在模型响应存在较大分歧的情景中，模型集体违反其“模型规范”的概率暴增了5到13倍[11][13] 模型规范的内在问题 - “模型规范”是大型语言模型被训练遵循的行为准则，但在现实中其原则经常“打架”，例如“商业效益”和“社会公平”的冲突[3][5] - 规范问题主要表现为直接矛盾（如“假设最佳意图”原则与安全限制矛盾）和解释性歧义，导致模型难以找到满足所有原则的答案[13][15] - 评估模型对于何为合规存在分歧，一致性仅为中等程度（Fleiss's Kappa 值为 0.42）[14] 压力测试方法论 - 研究团队从其包含3000多个价值观的语料库中随机抽样15万对价值观，并提示大语言模型生成需要平衡这些价值观对的用户查询[20] - 通过价值偏向化处理使查询数量增加两倍，最终数据集包含超过41万个情景，并筛选出30万个能引发不同模型响应行为的查询子集[22][27] - 采用三种不同的模型（Claude 4 Opus、Claude 3.7 Sonnet 和 o3）进行查询生成以增强多样性，其中基于推理的模型产出的查询质量显著更高[24][25][26] - 通过自动化评分标准生成和匹配过程，对12个前沿模型的响应按偏好强度进行分类（0-6分），以量化分歧[33][34] 主要厂商模型行为特征 - Claude模型优先考虑道德责任，拒绝执行可能有问题的请求频率比其他模型高出多达7倍[37][41] - Gemini模型强调情感深度，在评估规范遵循性时表现出独特的主观解释[16][37] - OpenAI和Grok模型以商业效率为优化目标，其中Grok 4的异常响应值最高，更愿意回应其他模型认为有害的请求[37][46] - o3模型直接拒绝请求的比例最高，常常是不加说明地简单回绝[41] 行业共识与安全底线 - 所有测试模型在涉及儿童诱骗风险的场景中拒绝率均呈上升趋势，表明保护未成年人是行业最高优先事项之一[43][46] - 研究揭示了系统性的假阳性拒绝问题，即在敏感话题上的高分歧场景中，模型会过度拒绝可能合法的请求[40]