Nvidia-英伟达被起诉，用盗版训练大模型成行业潜规则？

英伟达涉AI训练数据版权诉讼案 - 英伟达因使用“影子图书馆”的盗版图书数据训练其大语言模型，被五位作家提起集体诉讼，指控其侵犯版权 [3][4] - 英伟达于2026年1月31日提交正式动议，主张其行为属于“合理使用”，并要求法院驳回起诉，法院定于2026年4月2日举行听证会审理此动议 [4][18] - 起诉书内部记录显示，英伟达为应对OpenAI的竞争压力，在2023年开发者大会前通过“影子图书馆”获取了数百万本盗版图书用于训练模型 [4][19] 英伟达获取盗版数据的详细过程 - 英伟达发布的NeMo Megatron系列模型部分训练数据来自非营利机构EleutherAI发布的The Pile数据集，该数据集包含源自“影子图书馆”Bibliotik的Books3子集，约有19万本图书 [5][21] - 除使用The Pile外，英伟达被指控直接与全球最大的“影子图书馆”Anna‘s Archive合作，在管理层迅速批准后，获得了总量约500TB、涵盖数百万本盗版图书的访问权限 [7][22][24] - 英伟达转向盗版数据的直接原因是竞争压力：公司在2023年8月与多家图书出版商洽谈数据授权被拒，为赶在2023年秋季开发者大会发布领先模型，转而联系Anna’s Archive [7][23] “影子图书馆”的商业模式与风险 - “影子图书馆”如Anna‘s Archive提供付费的“优先级下载通道”或“高速企业级访问权限”，以换取数万美元级别的捐赠，这为大模型公司提供了便利但非法的数据源 [10][27] - Anna’s Archive声称，随着人工智能崛起，已为约30家公司提供高速数据访问权限，这为濒临消亡的“影子图书馆”带来了生机 [10][27] - 使用盗版资源带来巨大侵权风险，美国版权局2025年报告指出，商业用途下收集受版权保护的数据可能构成对复制权、编辑权、改编权的多重侵害 [10][27] 行业其他公司的类似诉讼与判例 - 多家AI巨头陷入类似纠纷：OpenAI、xAI、Anthropic、Meta等均遭遇训练数据版权诉讼 [4][20] - 2025年，Anthropic在一起侵权案中同意支付至少15亿美元达成和解，可能创下版权赔偿金额纪录 [4][20][28] - 2025年法院对Anthropic和Meta的两起案件作出判决：虽认定AI训练可能构成“合理使用”，但明知故犯地从盗版网站获取数据的行为可能被判定侵权 [11][28][29] 行业诉讼趋势与潜在影响 - 训练数据版权问题引发更多诉讼：2025年12月，六名作家起诉谷歌、OpenAI、xAI、Anthropic、Meta和Perplexity六家公司 [13][30] - 出版商群体也在2025年启动维权，例如多家大型出版商起诉AI初创公司Cohere，指控其未经授权使用超过4000部受版权保护的作品 [15][32] - 诉讼呈现全球化趋势：中国爱奇艺诉MiniMax案是国内视频平台首例AI训练数据诉讼；MiniMax同时在美国遭遇好莱坞巨头集体诉讼，索赔金额最高达7500万美元（约合52.8亿元人民币） [15][33]