英伟达涉AI训练数据版权诉讼案 - 英伟达因使用“影子图书馆”的盗版图书数据训练其大语言模型,被五位作家提起集体诉讼,指控其侵犯版权 [3][4] - 英伟达于2026年1月31日提交正式动议,主张其行为属于“合理使用”,并要求法院驳回起诉,法院定于2026年4月2日举行听证会审理此动议 [4][18] - 起诉书内部记录显示,英伟达为应对OpenAI的竞争压力,在2023年开发者大会前通过“影子图书馆”获取了数百万本盗版图书用于训练模型 [4][19] 英伟达获取盗版数据的详细过程 - 英伟达发布的NeMo Megatron系列模型部分训练数据来自非营利机构EleutherAI发布的The Pile数据集,该数据集包含源自“影子图书馆”Bibliotik的Books3子集,约有19万本图书 [5][21] - 除使用The Pile外,英伟达被指控直接与全球最大的“影子图书馆”Anna‘s Archive合作,在管理层迅速批准后,获得了总量约500TB、涵盖数百万本盗版图书的访问权限 [7][22][24] - 英伟达转向盗版数据的直接原因是竞争压力:公司在2023年8月与多家图书出版商洽谈数据授权被拒,为赶在2023年秋季开发者大会发布领先模型,转而联系Anna’s Archive [7][23] “影子图书馆”的商业模式与风险 - “影子图书馆”如Anna‘s Archive提供付费的“优先级下载通道”或“高速企业级访问权限”,以换取数万美元级别的捐赠,这为大模型公司提供了便利但非法的数据源 [10][27] - Anna’s Archive声称,随着人工智能崛起,已为约30家公司提供高速数据访问权限,这为濒临消亡的“影子图书馆”带来了生机 [10][27] - 使用盗版资源带来巨大侵权风险,美国版权局2025年报告指出,商业用途下收集受版权保护的数据可能构成对复制权、编辑权、改编权的多重侵害 [10][27] 行业其他公司的类似诉讼与判例 - 多家AI巨头陷入类似纠纷:OpenAI、xAI、Anthropic、Meta等均遭遇训练数据版权诉讼 [4][20] - 2025年,Anthropic在一起侵权案中同意支付至少15亿美元达成和解,可能创下版权赔偿金额纪录 [4][20][28] - 2025年法院对Anthropic和Meta的两起案件作出判决:虽认定AI训练可能构成“合理使用”,但明知故犯地从盗版网站获取数据的行为可能被判定侵权 [11][28][29] 行业诉讼趋势与潜在影响 - 训练数据版权问题引发更多诉讼:2025年12月,六名作家起诉谷歌、OpenAI、xAI、Anthropic、Meta和Perplexity六家公司 [13][30] - 出版商群体也在2025年启动维权,例如多家大型出版商起诉AI初创公司Cohere,指控其未经授权使用超过4000部受版权保护的作品 [15][32] - 诉讼呈现全球化趋势:中国爱奇艺诉MiniMax案是国内视频平台首例AI训练数据诉讼;MiniMax同时在美国遭遇好莱坞巨头集体诉讼,索赔金额最高达7500万美元(约合52.8亿元人民币) [15][33]
英伟达被起诉,用盗版训练大模型成行业潜规则?