Workflow
COMPAS系统
icon
搜索文档
今年第一部科幻迷必看大片,描绘了一场AI对人类的审判
36氪· 2026-01-19 17:58
文章核心观点 - 文章探讨了人工智能(AI)与司法系统融合的趋势、现实应用案例、引发的法律与伦理争议以及全球主要司法辖区的监管应对[1][2][8] - 通过对比科幻影视作品(如《极限审判》)的想象与现实司法AI工具(如美国COMPAS系统)的应用,揭示了AI在提升司法效率的同时,也带来了算法黑箱、偏见和程序正义等核心挑战[2][3][8][9][17] - 全球主要司法管辖区(美国、欧盟、中国)已开始通过立法或司法政策对AI在司法中的应用进行规范和探索,试图在效率与公平、创新与问责之间寻求平衡[18][19][20] AI在司法领域的影视想象与现实应用 - 科幻电影《极限审判》构建了一个由AI法官“天眼”系统主导的未来法庭,被告需在90分钟内通过AI系统自证清白以降低“有罪率”[2][3] - 现实中,美国司法系统早在1998年就开始研发并应用AI风险评估工具,例如COMPAS系统,该系统于2006年确立为第四代工具,用于评估被告的再犯风险以辅助量刑和保释决策[9][11] - COMPAS系统通过问卷收集被告及其社交圈的数据进行风险评估,其使用在美国法院迅速普及,但评估方法中与个体关联度不高的问题引发了争议[11] 现实司法AI应用引发的关键诉讼与争议 - **State v. Loomis案成为关键转折点**:被告埃里克·卢米斯因COMPAS系统评估其“暴力风险高、再犯风险高”而被判处6年监禁,他质疑法院使用该系统的合宪性[14] - **主要法律争议点**: - **算法黑箱与正当程序**:COMPAS的算法作为商业秘密未披露,被告无法有效质证,可能侵犯宪法第十四修正案赋予的正当程序权利[14] - **算法偏见与歧视**:系统将性别作为评估因素,且研究显示黑人被告被错误评估为高风险的概率是白人的两倍,可能放大司法系统中的种族不平等[15] - **个性化量刑权利**:法院过度依赖基于群体统计的算法评估,可能未能充分考虑被告个人具体情况[15] - **案件结果**:威斯康星州最高法院于2016年以5:2投票维持原判,认为使用COMPAS不违反正当程序,但建议其评估不应作为判决的唯一依据[15];2017年,美国联邦最高法院拒绝受理此案,州最高法院判决成为终局判决[16] 对司法AI的核心质疑:算法黑箱与透明度 - AI预测结果与实际情况的一致性是最核心问题,人们常默认计算机结论具有客观性,但被审判者往往无力对抗高效系统[17] - AI基于海量数据和复杂模型输出建议时,其推理逻辑难以追溯和解释,这直接挑战了司法公开和可解释性的基本原则[17] - 根本的解决方案是推动算法从“黑箱”走向“透明”,确保决策过程符合程序正义[17] 全球主要司法辖区对司法AI的监管探索 - **美国**:立法进程存在试探与摇摆,2022年《算法责任法案》因评估标准模糊、合规负担重及科技巨头游说而在国会搁浅;2025年新版本法案在定义和报告机制上更细致,目前仍处于立法审议阶段[18] - **欧盟**:采取了更积极主动的立法策略,于2024年通过并生效《人工智能法案》,该法案基于风险分级进行规制,司法等关键公共部门使用的算法决策系统大多被归类为“高风险AI系统”,需履行严苛的合规义务[19];《通用数据保护条例》(GDPR)第22条也赋予个人不受仅基于自动化处理所作重大决策影响的权利[19] - **中国**:中国最高人民法院于2022年12月发布《关于规范和加强人工智能司法应用的意见》,确立五项基本原则,其中“辅助审判原则”明确AI结果仅作为参考,司法裁判职权始终由审判组织行使;“透明可信原则”要求AI系统的数据、逻辑等环节能以可解释、可测试、可验证的方式接受审查[20]
预测式AI为什么一败涂地?
36氪· 2025-11-07 18:48
预测式AI工具的应用与宣传 - EAB Navigate等AI工具声称能通过自动化预测提供宝贵洞察,帮助判断学生的学业成功潜力[1] - Upstart的AI贷款审批模型宣称比传统系统更精准,3/4的贷款决策无需人工干预[9] - HireVue的自动化招聘工具声称可预测候选人工作表现,并标榜为快速、公平、灵活[9] - 预测式AI在医院、雇主、保险公司等机构迅速普及,主要卖点是能重新利用已收集的行政管理数据实现自动化决策[9] 预测式AI的潜在风险与缺陷 - 基于历史数据的预测可能混淆相关性与因果关系,如肺炎预测模型错误得出哮喘患者风险较低的结论[12][13] - 模型训练数据可能无法反映真实目标,如Optum模型用医疗费用替代医疗需求预测,导致对黑人患者的种族偏见[29][30] - COMPAS系统使用逮捕记录而非犯罪记录预测再犯风险,可能放大执法体系中的种族歧视[31] - 模型在部署到新环境或面对策略性行为时性能可能下降,如招聘AI受简历格式、背景等无关因素影响评分[18][19] 自动化决策系统的实际失败案例 - 荷兰福利欺诈算法错误指控约3万名家长,使用国籍作为预测因素,导致政府内阁辞职并被罚款370万欧元[20][21] - 美国密歇根州算法错误收取2100万美元失业欺诈费用,澳大利亚"机器人债务丑闻"错误追讨7.21亿澳元[21] - 多伦多海滩水质预测工具在实际使用中64%的错误情况下未关闭海滩,人工监督形同虚设[22] - 美国联合健康集团的AI决策系统错误率超过90%,但员工被要求服从AI判断[23] 数据代表性不足导致的偏差 - ORAS系统仅基于俄亥俄州452名被告数据训练,却在全国推广使用[24] - PSA系统使用全美300个司法管辖区150万人数据,但在犯罪率低的库克县将大量被告错误标记为高风险[25][26] - 阿勒格尼县儿童虐待风险工具仅依赖公共福利数据,无法评估富裕家庭,不成比例针对贫困群体[26][27] 行业对预测式AI的过度依赖 - 开发者常采用"诱饵与调包"策略,宣传全面自动化优势,出现问题后强调需人工监督以规避责任[22] - 即使存在理论上的监督机制,因时间限制、专业不足或权限问题,实际监督往往不充分[23] - 人类固有的随机性焦虑驱使决策者接受有缺陷的预测系统,而非承认未来的不可预测性[35][36]
预测式AI为什么一败涂地?
腾讯研究院· 2025-11-07 16:30
预测式AI的核心问题 - 预测式AI基于历史数据做出预测,但相关性不等于因果关系,可能导致灾难性决策,如医疗AI模型错误判断哮喘患者肺炎风险较低[18] - 系统无法预测自身决策对环境的改变,当部署到新场景时,历史数据的准确性无法保证决策质量[19][21] - 预测式AI的营销宣传常夸大效用,但实际开发依赖人类决策和带有偏见的数据,承诺的公平性和效率优势缺乏可靠证据[13][15] 预测式AI的应用缺陷 - 自动化招聘工具易被表面因素操控,如视频面试背景、简历格式或关键词填充,这些修改不影响实际工作能力却改变AI评分[24][25] - 刑事司法系统使用COMPAS等工具预测犯罪风险,但依赖逮捕记录而非犯罪记录,加剧种族偏见,黑人因相同行为比白人更易被标记高风险[42] - 医疗资源分配模型如Optum Impact Pro用医疗费用替代健康需求预测,使已获更好服务的群体持续获得资源,放大种族不平等[40][41] 数据与系统局限性 - 模型训练数据常与目标群体不匹配,如PSA系统基于全美数据但无法适应低犯罪率地区,导致高风险误判和不当监禁[33][34] - 儿童虐待预测工具仅覆盖使用公共服务的低收入家庭数据,无法评估富裕家庭,造成对弱势群体的过度聚焦[35][43] - 依赖现有数据而非专门收集新数据,如医疗领域缺乏随机对照试验验证,使决策可靠性存疑[20] 过度自动化与监管失效 - 荷兰福利欺诈算法错误指控3万名家长,使用国籍作为预测因素,缺乏申诉机制导致严重社会后果[28][29] - 系统声称有人工监督但实际未修正决策,如多伦多海滩水质预测工具64%的错误未纠正,联合健康集团员工被要求服从90%错误的AI决策[30][31] - 自动化偏见广泛存在,75%飞行员在模拟实验中因系统错误警报关闭正常引擎,显示过度依赖自动化风险[31] 行业影响与商业动机 - 预测式AI被医院、雇主、政府等广泛用于资源分配,但商业激励促使公司选择易于量化的替代指标(如医疗费用)而非真实目标[41] - 招聘领域约3/4美国雇主使用自动化筛选工具,过程不透明使候选人策略性修改申请材料,而非提升实际技能[24][26] - 企业对随机性的恐惧驱动预测式AI应用,试图在人才识别等不确定任务中强加模式,而非接受固有随机性可能带来更公平结果[48][51]