AI训练数据版权 - 财报，业绩电话会，研报，新闻

AI训练数据版权

搜索文档

新浪财经· 2026-02-08 17:51

英伟达涉AI训练数据版权诉讼案 - 英伟达因使用“影子图书馆”的盗版图书数据训练其大语言模型，被五位作家提起集体诉讼，指控其侵犯版权 [3][4] - 英伟达于2026年1月31日提交正式动议，主张其行为属于“合理使用”，并要求法院驳回起诉，法院定于2026年4月2日举行听证会审理此动议 [4][18] - 起诉书内部记录显示，英伟达为应对OpenAI的竞争压力，在2023年开发者大会前通过“影子图书馆”获取了数百万本盗版图书用于训练模型 [4][19] 英伟达获取盗版数据的详细过程 - 英伟达发布的NeMo Megatron系列模型部分训练数据来自非营利机构EleutherAI发布的The Pile数据集，该数据集包含源自“影子图书馆”Bibliotik的Books3子集，约有19万本图书 [5][21] - 除使用The Pile外，英伟达被指控直接与全球最大的“影子图书馆”Anna‘s Archive合作，在管理层迅速批准后，获得了总量约500TB、涵盖数百万本盗版图书的访问权限 [7][22][24] - 英伟达转向盗版数据的直接原因是竞争压力：公司在2023年8月与多家图书出版商洽谈数据授权被拒，为赶在2023年秋季开发者大会发布领先模型，转而联系Anna’s Archive [7][23] “影子图书馆”的商业模式与风险 - “影子图书馆”如Anna‘s Archive提供付费的“优先级下载通道”或“高速企业级访问权限”，以换取数万美元级别的捐赠，这为大模型公司提供了便利但非法的数据源 [10][27] - Anna’s Archive声称，随着人工智能崛起，已为约30家公司提供高速数据访问权限，这为濒临消亡的“影子图书馆”带来了生机 [10][27] - 使用盗版资源带来巨大侵权风险，美国版权局2025年报告指出，商业用途下收集受版权保护的数据可能构成对复制权、编辑权、改编权的多重侵害 [10][27] 行业其他公司的类似诉讼与判例 - 多家AI巨头陷入类似纠纷：OpenAI、xAI、Anthropic、Meta等均遭遇训练数据版权诉讼 [4][20] - 2025年，Anthropic在一起侵权案中同意支付至少15亿美元达成和解，可能创下版权赔偿金额纪录 [4][20][28] - 2025年法院对Anthropic和Meta的两起案件作出判决：虽认定AI训练可能构成“合理使用”，但明知故犯地从盗版网站获取数据的行为可能被判定侵权 [11][28][29] 行业诉讼趋势与潜在影响 - 训练数据版权问题引发更多诉讼：2025年12月，六名作家起诉谷歌、OpenAI、xAI、Anthropic、Meta和Perplexity六家公司 [13][30] - 出版商群体也在2025年启动维权，例如多家大型出版商起诉AI初创公司Cohere，指控其未经授权使用超过4000部受版权保护的作品 [15][32] - 诉讼呈现全球化趋势：中国爱奇艺诉MiniMax案是国内视频平台首例AI训练数据诉讼；MiniMax同时在美国遭遇好莱坞巨头集体诉讼，索赔金额最高达7500万美元（约合52.8亿元人民币） [15][33]

36氪· 2025-12-23 19:56

诉讼核心指控 - 由知名作家约翰·卡雷鲁牵头，对OpenAI、谷歌、Meta、Anthropic、xAI及Perplexity AI六家AI公司提起集体诉讼，指控其通过盗版书籍训练模型构成“蓄意侵权” [1] - 指控核心为“双重侵权链条”：公司从LibGen、Z-Library等“非法影子图书馆”批量下载数百万册盗版书籍，用于大语言模型训练与产品优化，形成“盗版获取-模型训练-商业变现”的非法闭环 [1] - 原告方强调，作家的智力成果支撑起“价值数十亿美元的AI生态”，但未获得任何补偿 [1] - 若陪审团认定侵权属故意行为，每部侵权作品最高可获赔15万美元 [2] 行业诉讼概况与先例 - OpenAI是行业“被诉大户”，已面临至少14起版权诉讼 [2] - 2023年底，《纽约时报》起诉微软和OpenAI，称其数百万篇文章被用于训练ChatGPT等模型，并要求被告销毁使用其版权材料的任何AI模型和训练数据 [2] - 2024年6月，OpenAI对《纽约时报》要求无限期保留消费者数据的诉讼请求提起上诉，认为该请求违背隐私承诺 [2] - 《纽约时报》也曾向Perplexity AI发出“停止并终止”通知，要求其停止访问和使用其内容 [2] - 谷歌在12月初收到迪士尼的停止侵权函，被指“未经授权复制海量版权作品用于AI开发” [3] - Meta同样因模型训练数据问题，多次收到好莱坞大厂的侵权警告 [3] 关键司法案例与潜在影响 - Anthropic因使用盗版书籍训练Claude模型被告，2025年6月被美国加州法院裁定“盗版数据不适用合理使用”，最终支付15亿美元和解并销毁侵权数据 [3] - xAI与Perplexity AI虽成立时间较短，但被指控的侵权模式与行业巨头高度一致，暴露出AI公司对盗版数据的普遍依赖 [3] - 本案审理地加州北区法院已受理25起AI版权案件，占全美同类案件半数以上，其判决结果或将成为界定AI训练数据合法性的关键标尺 [3]