文章核心观点 法院文件显示多年来Meta员工内部讨论用法律存疑手段获取的版权作品训练AI模型 公司与原告就训练模型使用受知识产权保护作品是否属“合理使用”存在分歧[1][2] 案件情况 - 案件Kadrey v. Meta是众多AI版权纠纷之一 被告Meta称用受知识产权保护作品训练模型属“合理使用” 原告包括作家Sarah Silverman和Ta - Nehisi Coates 他们不同意此观点[2] - 原告自2023年在加州北区联邦地区法院旧金山分庭提起诉讼后多次修改诉状 最新诉状称Meta将某些盗版书籍与可授权的版权书籍进行交叉引用 以确定是否与出版商达成授权协议[14] Meta内部讨论情况 训练版权作品讨论 - Meta员工讨论用可能存在法律问题的作品训练模型 研究工程师Xavier Martinet提出“先行动后请求原谅” 建议按零售价购买电子书构建训练集而非与出版商达成授权协议 还称大量初创公司可能已用盗版书籍训练[4][5] - 高级经理Melanie Kambadur指出使用“公开可用数据”训练模型需批准 但公司律师在审批上比过去保守程度降低 公司正与文档托管平台Scribd等洽谈授权[6][7] 使用Libgen讨论 - Kambadur讨论将曾因版权侵权多次被起诉、罚款的Libgen作为替代授权数据源 部分决策者认为不使用Libgen会损害公司在AI竞赛中的竞争力[7][8] - 产品管理总监Sony Theakanath称Libgen对达到各类别最佳AI模型和基准类别数据至关重要 并提出减轻法律风险措施 如移除标记为盗版的数据、不公开引用使用情况[9][10] 其他数据使用讨论 - 公司AI团队调整模型以“避免知识产权风险提示” 配置模型拒绝回答特定问题[11] - 文件暗示公司可能模仿第三方应用Pushift抓取Reddit数据用于模型训练 Reddit于2023年4月表示计划向AI公司收取数据访问费用[11] - 2024年3月产品管理总监Chaya Nayak称Meta领导层考虑推翻过去关于训练数据的决定 因公司第一方训练数据集不足 需要更多数据[12][13] Meta应对措施 - 公司为应对法律风险 聘请Paul Weiss律师事务所的两名最高法院诉讼律师加入辩护团队[15]
Court filings show Meta staffers discussed using copyrighted content for AI training