Meta Platforms-Court filings show Meta staffers discussed using copyrighted content for AI training

文章核心观点法院文件显示多年来Meta员工内部讨论用法律存疑手段获取的版权作品训练AI模型公司与原告就训练模型使用受知识产权保护作品是否属“合理使用”存在分歧[1][2] 案件情况 - 案件Kadrey v. Meta是众多AI版权纠纷之一被告Meta称用受知识产权保护作品训练模型属“合理使用” 原告包括作家Sarah Silverman和Ta - Nehisi Coates 他们不同意此观点[2] - 原告自2023年在加州北区联邦地区法院旧金山分庭提起诉讼后多次修改诉状最新诉状称Meta将某些盗版书籍与可授权的版权书籍进行交叉引用以确定是否与出版商达成授权协议[14] Meta内部讨论情况训练版权作品讨论 - Meta员工讨论用可能存在法律问题的作品训练模型研究工程师Xavier Martinet提出“先行动后请求原谅” 建议按零售价购买电子书构建训练集而非与出版商达成授权协议还称大量初创公司可能已用盗版书籍训练[4][5] - 高级经理Melanie Kambadur指出使用“公开可用数据”训练模型需批准但公司律师在审批上比过去保守程度降低公司正与文档托管平台Scribd等洽谈授权[6][7] 使用Libgen讨论 - Kambadur讨论将曾因版权侵权多次被起诉、罚款的Libgen作为替代授权数据源部分决策者认为不使用Libgen会损害公司在AI竞赛中的竞争力[7][8] - 产品管理总监Sony Theakanath称Libgen对达到各类别最佳AI模型和基准类别数据至关重要并提出减轻法律风险措施如移除标记为盗版的数据、不公开引用使用情况[9][10] 其他数据使用讨论 - 公司AI团队调整模型以“避免知识产权风险提示” 配置模型拒绝回答特定问题[11] - 文件暗示公司可能模仿第三方应用Pushift抓取Reddit数据用于模型训练 Reddit于2023年4月表示计划向AI公司收取数据访问费用[11] - 2024年3月产品管理总监Chaya Nayak称Meta领导层考虑推翻过去关于训练数据的决定因公司第一方训练数据集不足需要更多数据[12][13] Meta应对措施 - 公司为应对法律风险聘请Paul Weiss律师事务所的两名最高法院诉讼律师加入辩护团队[15]