人工智能模型训练

搜索文档
速递|O'Reilly指控OpenAI"窃书" 训练 GPT-4o,AI数据黑箱再陷版权风暴
Z Potentials· 2025-04-02 11:17
核心观点 - 多家机构指控OpenAI可能未经许可使用付费墙后的O'Reilly书籍训练其AI模型,尤其是GPT-4o [1][2] - AI监督组织通过论文指出,GPT-4o对付费墙后书籍内容的识别率显著高于旧版模型,暗示其训练数据可能包含未授权内容 [2][3] - OpenAI面临多起诉讼,其训练数据实践和版权法处理引发争议 [5] 训练数据争议 - OpenAI被指控利用O'Reilly Media付费墙后的书籍训练GPT-4o,且未签署许可协议 [2] - 论文采用DE-COP方法(成员推理攻击)检测模型训练数据中的受版权保护内容,结果显示GPT-4o对付费墙后书籍的识别率远高于GPT-3.5 Turbo [2][3] - 研究分析了34本O'Reilly书籍中的13,962个段落摘录,评估模型训练数据中可能包含的版权内容概率 [3] 模型表现差异 - GPT-4o对付费墙后O'Reilly书籍内容的识别能力显著强于GPT-3.5 Turbo,后者对公开可获取的书籍样本识别率更高 [2][3] - 研究指出,GPT-4o可能掌握了其训练截止日期前出版的非公开O'Reilly书籍内容,但未评估最新发布的GPT-4.5等模型 [4] OpenAI的数据策略 - OpenAI在耗尽公共网络数据后,开始采用AI生成的数据训练模型,但完全摒弃现实世界数据的实验室极少 [1] - 公司长期倡导放宽使用受版权保护数据的限制,并寻求更高质量的训练数据,甚至聘请记者和领域专家协助微调模型 [4] - OpenAI与部分新闻出版商、社交网络等签订了授权协议,并提供了不完善的退出机制供版权所有者标记不希望用于训练的内容 [4] 行业趋势 - AI公司普遍招募科学、物理等领域专家,将专业知识输入AI系统以提升模型性能 [4] - 纯合成数据训练存在风险,可能导致模型性能下降,因此多数实验室仍依赖现实世界数据 [1]