系统鲁棒性

搜索文档
欧盟公布最终版《通用人工智能行为准则》,如何影响汽车业?
中国汽车报网· 2025-07-15 11:21
在智能座舱交互方面,版权红线与用户数据治理面临新课题。其中,车载AI内容合规上,如语音助手、娱乐系统生成的文本、音乐、导航路 径等内容,需确保训练数据未侵犯欧盟版权法保护的作品,包括未经授权的音乐片段、文学作品引用等。车企需与内容版权方重新谈判签订授权 协议,或转向合规数据源,由此可能推高车载软件采购成本。在生物数据监管上,面部识别启动车辆、个性化座椅调节等功能采集的生物特征数 据,须明确告知用户并获得单独授权,且数据存储需符合欧盟《通用数据保护条例》(GDPR),跨境传输需通过欧盟认证的安全通道。 在智能网联汽车方兴未艾之际,新的规则必然带来新的挑战。 近日,欧盟委员会公布《通用人工智能行为准则》(以下简称《准则》)最终版本,相关内容迅速在欧盟乃至全球汽车业界引发广泛关注。 《准则》是《法案》的延伸 《准则》的初衷旨在帮助汽车等行业企业遵守欧盟《人工智能法案》的相关规定。作为《人工智能法案》的配套文件,《准则》聚焦透明 度、版权、安全与保障三大核心,为ChatGPT、Gemini等主流通用AI模型提供自律指引。准则将于2025年8月2日正式生效,其中要求企业须于 2025年8月2日前构建的AI模型需在2年内 ...
卡内基梅隆大学团队:如何全面检测RAG系统鲁棒性?
搜狐财经· 2025-06-08 10:53
RAG系统鲁棒性研究 - 卡内基梅隆大学与亚马逊团队提出RARE框架,从查询扰动、文档扰动和真实世界检索扰动三方面全面评估RAG系统鲁棒性 [3][5][6] - 当前RAG评估方法依赖静态数据集,偏向依赖记忆而非检索能力的模型,导致评估结果过于乐观 [2] - RARE框架包含三大组件:RARE-Met(评估指标)、RARE-Get(数据生成管道)、RARE-Set(专业领域数据集) [3][7][10] RARE-Met评估体系 - 定义鲁棒RAG系统的两大能力:内部知识稳定性与外部检索依赖性 [5] - 引入三类扰动测试:查询扰动(字符/词级错误、语法变化)、文档扰动(词汇/答案相关性变化)、真实世界检索扰动 [5][6] - 计算四类鲁棒性指标:总体鲁棒性、查询鲁棒性、文档鲁棒性、真实世界检索鲁棒性 [6] RARE-Get数据生成技术 - 全自动四阶段管道:构建真实文本块→知识图谱提取→查询模式识别→查询生成与质检 [8] - 利用GPT-4.1提取结构化三元组,E5-Mistral-7B-Instruct标准化语义关系 [8] - 支持生成单跳和三种多跳查询模式(链式、星形、反星形),质检阈值设定为3/5分以上 [8][9] RARE-Set专业数据集 - 覆盖金融(SEC 10-k文件)、经济(经合组织调查)、政策(HUD报告)三大领域 [10] - 包含48,322个时间敏感问题,其中金融文档优先提取绩效指标和财务事件关系 [4][10] - 数据规模:150份SEC文件、114份经济调查、214份政策报告,支持动态扩展 [10][11] 实验关键发现 - 文档扰动对系统影响最大(所有类型扰动均显著降低性能),查询扰动中词级错误影响最突出 [16][17] - 模型鲁棒性不完全依赖参数规模:Qwen3-14B优于Qwen3-32B,GPT-4.1-nano超越GPT-4.1-mini [13][17] - 领域差异显著:金融领域表现最佳(标准化数据),经济领域最差(复杂因果关系) [14][15][17] - 多跳查询鲁棒性普遍低于单跳查询,小模型差距更明显 [15][17]