Nvidia-英伟达涉版权侵权诉讼，被指从影子图书馆获取 500TB 盗版数据

核心诉讼事件 - 芯片巨头英伟达陷入版权集体诉讼被指控为训练自研AI模型蓄意从“安娜档案馆”等多个“影子图书馆”获取海量盗版数据涉案数据规模达500TB 包含数百万本受版权保护的图书涉嫌侵犯著作权[1] - 诉讼最早于2024年初由多位作者提起指控英伟达AI模型使用包含盗版作品的Books3数据集进行训练英伟达当时以“合理使用”为由辩护称书籍对其AI模型仅为统计关联数据[3] - 在证据开示阶段原告方发现新线索并提交修订后的起诉状大幅扩大了诉讼范围[3] 英伟达内部证据与数据获取行为 - 新诉状援引英伟达内部邮件及文件显示其数据战略团队曾主动联系“安娜档案馆” 寻求获取数百万份盗版资料并探讨将其纳入大语言模型预训练数据的可行性[3] - “安娜档案馆”明确告知英伟达其藏书均为非法获取和留存并要求英伟达高管确认是否已获得内部授权英伟达管理层在知晓数据非法性的数天后仍于一周内批准了合作[3] - “安娜档案馆”随后向英伟达开放了约500TB的盗版数据访问权限其中包含的数百万本图书原本多仅能通过“互联网档案馆”的数字借阅系统获取[3] - 除“安娜档案馆”外英伟达还存在多渠道获取盗版数据的行为包括从“图书馆基因”、“科学枢纽”、“Z图书馆”等平台下载图书[4] - 英伟达还向企业客户分发脚本和工具助力客户自动下载包含盗版Books3数据集的“The Pile”数据库[4] 诉讼主张与行业背景 - 基于多渠道获取和分发盗版数据的行为原告方新增了辅助侵权与共同侵权两项诉讼主张认为英伟达通过为他人获取盗版数据集提供便利牟利[4] - 这是美国大型科技公司与“安娜档案馆”的往来函件首次被公开披露此次侵权纠纷进一步提升了这家盗版图书馆的公众关注度[4] - 作为人工智能热潮中的核心受益企业之一英伟达凭借AI训练芯片及数据中心服务的市场需求营收持续大幅增长同时公司也在积极布局自主AI模型研发推出了NeMo、Retro-48B等多款模型这些模型的训练均依赖海量文本数据支撑但其数据获取方式的合法性一直备受质疑[1]