AI训练数据版权
搜索文档
英伟达被起诉,用盗版训练大模型成行业潜规则?
新浪财经· 2026-02-08 17:51
英伟达涉AI训练数据版权诉讼案 - 英伟达因使用“影子图书馆”的盗版图书数据训练其大语言模型,被五位作家提起集体诉讼,指控其侵犯版权 [3][4] - 英伟达于2026年1月31日提交正式动议,主张其行为属于“合理使用”,并要求法院驳回起诉,法院定于2026年4月2日举行听证会审理此动议 [4][18] - 起诉书内部记录显示,英伟达为应对OpenAI的竞争压力,在2023年开发者大会前通过“影子图书馆”获取了数百万本盗版图书用于训练模型 [4][19] 英伟达获取盗版数据的详细过程 - 英伟达发布的NeMo Megatron系列模型部分训练数据来自非营利机构EleutherAI发布的The Pile数据集,该数据集包含源自“影子图书馆”Bibliotik的Books3子集,约有19万本图书 [5][21] - 除使用The Pile外,英伟达被指控直接与全球最大的“影子图书馆”Anna‘s Archive合作,在管理层迅速批准后,获得了总量约500TB、涵盖数百万本盗版图书的访问权限 [7][22][24] - 英伟达转向盗版数据的直接原因是竞争压力:公司在2023年8月与多家图书出版商洽谈数据授权被拒,为赶在2023年秋季开发者大会发布领先模型,转而联系Anna’s Archive [7][23] “影子图书馆”的商业模式与风险 - “影子图书馆”如Anna‘s Archive提供付费的“优先级下载通道”或“高速企业级访问权限”,以换取数万美元级别的捐赠,这为大模型公司提供了便利但非法的数据源 [10][27] - Anna’s Archive声称,随着人工智能崛起,已为约30家公司提供高速数据访问权限,这为濒临消亡的“影子图书馆”带来了生机 [10][27] - 使用盗版资源带来巨大侵权风险,美国版权局2025年报告指出,商业用途下收集受版权保护的数据可能构成对复制权、编辑权、改编权的多重侵害 [10][27] 行业其他公司的类似诉讼与判例 - 多家AI巨头陷入类似纠纷:OpenAI、xAI、Anthropic、Meta等均遭遇训练数据版权诉讼 [4][20] - 2025年,Anthropic在一起侵权案中同意支付至少15亿美元达成和解,可能创下版权赔偿金额纪录 [4][20][28] - 2025年法院对Anthropic和Meta的两起案件作出判决:虽认定AI训练可能构成“合理使用”,但明知故犯地从盗版网站获取数据的行为可能被判定侵权 [11][28][29] 行业诉讼趋势与潜在影响 - 训练数据版权问题引发更多诉讼:2025年12月,六名作家起诉谷歌、OpenAI、xAI、Anthropic、Meta和Perplexity六家公司 [13][30] - 出版商群体也在2025年启动维权,例如多家大型出版商起诉AI初创公司Cohere,指控其未经授权使用超过4000部受版权保护的作品 [15][32] - 诉讼呈现全球化趋势:中国爱奇艺诉MiniMax案是国内视频平台首例AI训练数据诉讼;MiniMax同时在美国遭遇好莱坞巨头集体诉讼,索赔金额最高达7500万美元(约合52.8亿元人民币) [15][33]
OpenAI等六大AI巨头遭作家起诉
36氪· 2025-12-23 19:56
诉讼核心指控 - 由知名作家约翰·卡雷鲁牵头,对OpenAI、谷歌、Meta、Anthropic、xAI及Perplexity AI六家AI公司提起集体诉讼,指控其通过盗版书籍训练模型构成“蓄意侵权” [1] - 指控核心为“双重侵权链条”:公司从LibGen、Z-Library等“非法影子图书馆”批量下载数百万册盗版书籍,用于大语言模型训练与产品优化,形成“盗版获取-模型训练-商业变现”的非法闭环 [1] - 原告方强调,作家的智力成果支撑起“价值数十亿美元的AI生态”,但未获得任何补偿 [1] - 若陪审团认定侵权属故意行为,每部侵权作品最高可获赔15万美元 [2] 行业诉讼概况与先例 - OpenAI是行业“被诉大户”,已面临至少14起版权诉讼 [2] - 2023年底,《纽约时报》起诉微软和OpenAI,称其数百万篇文章被用于训练ChatGPT等模型,并要求被告销毁使用其版权材料的任何AI模型和训练数据 [2] - 2024年6月,OpenAI对《纽约时报》要求无限期保留消费者数据的诉讼请求提起上诉,认为该请求违背隐私承诺 [2] - 《纽约时报》也曾向Perplexity AI发出“停止并终止”通知,要求其停止访问和使用其内容 [2] - 谷歌在12月初收到迪士尼的停止侵权函,被指“未经授权复制海量版权作品用于AI开发” [3] - Meta同样因模型训练数据问题,多次收到好莱坞大厂的侵权警告 [3] 关键司法案例与潜在影响 - Anthropic因使用盗版书籍训练Claude模型被告,2025年6月被美国加州法院裁定“盗版数据不适用合理使用”,最终支付15亿美元和解并销毁侵权数据 [3] - xAI与Perplexity AI虽成立时间较短,但被指控的侵权模式与行业巨头高度一致,暴露出AI公司对盗版数据的普遍依赖 [3] - 本案审理地加州北区法院已受理25起AI版权案件,占全美同类案件半数以上,其判决结果或将成为界定AI训练数据合法性的关键标尺 [3]