核心诉讼事件 - 芯片巨头英伟达陷入版权集体诉讼 被指控为训练自研AI模型 蓄意从“安娜档案馆”等多个“影子图书馆”获取海量盗版数据 涉案数据规模达500TB 包含数百万本受版权保护的图书 涉嫌侵犯著作权[1] - 诉讼最早于2024年初由多位作者提起 指控英伟达AI模型使用包含盗版作品的Books3数据集进行训练 英伟达当时以“合理使用”为由辩护 称书籍对其AI模型仅为统计关联数据[3] - 在证据开示阶段 原告方发现新线索并提交修订后的起诉状 大幅扩大了诉讼范围[3] 英伟达内部证据与数据获取行为 - 新诉状援引英伟达内部邮件及文件显示 其数据战略团队曾主动联系“安娜档案馆” 寻求获取数百万份盗版资料 并探讨将其纳入大语言模型预训练数据的可行性[3] - “安娜档案馆”明确告知英伟达其藏书均为非法获取和留存 并要求英伟达高管确认是否已获得内部授权 英伟达管理层在知晓数据非法性的数天后 仍于一周内批准了合作[3] - “安娜档案馆”随后向英伟达开放了约500TB的盗版数据访问权限 其中包含的数百万本图书原本多仅能通过“互联网档案馆”的数字借阅系统获取[3] - 除“安娜档案馆”外 英伟达还存在多渠道获取盗版数据的行为 包括从“图书馆基因”、“科学枢纽”、“Z图书馆”等平台下载图书[4] - 英伟达还向企业客户分发脚本和工具 助力客户自动下载包含盗版Books3数据集的“The Pile”数据库[4] 诉讼主张与行业背景 - 基于多渠道获取和分发盗版数据的行为 原告方新增了辅助侵权与共同侵权两项诉讼主张 认为英伟达通过为他人获取盗版数据集提供便利牟利[4] - 这是美国大型科技公司与“安娜档案馆”的往来函件首次被公开披露 此次侵权纠纷进一步提升了这家盗版图书馆的公众关注度[4] - 作为人工智能热潮中的核心受益企业之一 英伟达凭借AI训练芯片及数据中心服务的市场需求 营收持续大幅增长 同时公司也在积极布局自主AI模型研发 推出了NeMo、Retro-48B等多款模型 这些模型的训练均依赖海量文本数据支撑 但其数据获取方式的合法性一直备受质疑[1]
英伟达涉版权侵权诉讼,被指从影子图书馆获取 500TB 盗版数据