NeMo Megatron框架
搜索文档
说过 ≠ 做过:英伟达否认用盗版书训练 AI,强硬要求法院驳回作家集体诉讼
新浪财经· 2026-02-09 09:24
案件核心观点 - 英伟达坚决否认使用盗版书籍训练其AI模型 并已向法院提交动议要求驳回作家团体的集体诉讼[1] - 英伟达认为原告的指控缺乏实质性证据 属于推测性指控 未能满足版权侵权诉讼的基本要件[2] 英伟达的法律辩护要点 - 英伟达指出原告未能提供任何证据证明其作品被下载或用于模型训练 指控纯属推测[1] - 针对原告提及的内部讨论 英伟达辩称“讨论不等于实际使用” 且无证据表明涉诉作品被下载[1] - 英伟达强调 讨论或评估潜在数据来源并不构成版权法意义上的复制行为[2] - 英伟达批评原告依赖“基于信息与信念”的表述 试图以取证程序替代起诉阶段应完成的事实陈述[2] 原告的指控内容 - 原告主张英伟达的AI工具与参考模型在训练过程中使用了来自“影子图书馆”的受版权保护书籍 包括Anna‘s Archive以及Books3等来源[1] - 原告在修订版起诉书中加入了新的理论、数据集与模型指控 并援引内部讨论内容作为证据[1] - 修订起诉书提出了“间接责任”路径 试图将英伟达的NeMo Megatron框架与其支持下载公共大规模数据集的能力纳入责任范围[5] 英伟达对具体指控的回应 - 英伟达反对原告在修订起诉书中新增的多个数据集与模型指控 认为原告将多个模型与工具“打包式”指控 却没有解释任何特定模型如何使用原告作品进行训练[3] - 英伟达引用其公开文档 称原告对训练数据来源的推断与公开资料存在矛盾[3] - 针对“间接责任”指控 英伟达回应称起诉书并未指称任何第三方实施了直接侵权行为 而这是主张帮助侵权或替代责任所必需的前提条件[5] - 英伟达强调 提供可选工具本身并不能自动构成侵权责任 除非原告能够提出具体事实证明用户确实利用这些工具实施了版权侵权[5] 案件程序信息 - 案件名为Nazemian v Nvidia 目前由加州北区联邦法院法官Jon Tigar审理[1] - 英伟达提交的驳回动议预计将于2026年4月2日在美国加州北区联邦法院举行听证[5]
英伟达否认用盗版书训练AI,要求法院驳回相关诉讼
搜狐财经· 2026-02-08 23:36
案件核心观点 - 英伟达向加州联邦法院提交动议,要求驳回作家团体的集体诉讼,坚决否认曾使用盗版书籍训练其AI模型 [1] - 英伟达认为原告未能提供任何实质性证据证明其作品被下载或用于模型训练,相关指控纯属推测 [1] 英伟达的法律辩护要点 - 英伟达指出,原告未能提出事实来证明公司复制了其具体作品,也未说明复制发生的时间、方式或涉及哪些模型,缺乏关键细节的主张被视为推测性指控 [2] - 针对原告援引的内部讨论,英伟达辩称员工讨论或询问访问盗版书库Anna's Archive的可能性,并不等同于公司实际下载或获取了原告作品 [1][2] - 英伟达强调,讨论或评估潜在数据来源本身不构成版权法意义上的复制行为,版权侵权诉讼要求原告在起诉阶段就必须提出足够的事实依据 [2] - 英伟达批评原告大量依赖“基于信息与信念”的表述,认为这是试图以取证程序替代起诉阶段应完成的事实陈述 [2] 原告的指控与案件范围 - 原告主张英伟达的AI工具与参考模型在训练过程中使用了来自“影子图书馆”(如Anna's Archive和Books3)的受版权保护书籍 [1] - 原告在修订版起诉书中加入了新的理论、数据集与模型指控,包括对Megatron 345M等内容的讨论 [1][3] - 原告还提出了“间接责任”路径,试图将英伟达的NeMo Megatron框架及其支持下载公共数据集(如The Pile)的能力纳入责任范围 [4] 英伟达对指控范围的抗辩 - 英伟达试图缩小案件范围,反对原告在修订起诉书中新增的多个数据集与模型指控 [3] - 英伟达认为原告将多个模型与工具进行“打包式”指控,却没有解释任何特定模型如何使用原告作品进行训练 [3] - 英伟达引用其公开文档,称原告对训练数据来源的推断与公开资料存在矛盾 [3] - 针对“间接责任”指控,英伟达回应称,起诉书并未指称任何第三方实施了直接侵权行为,而这是主张帮助侵权或替代责任所必需的前提条件 [4] - 英伟达强调,提供可选工具本身并不能自动构成侵权责任,除非原告能够提出具体事实证明用户确实利用这些工具实施了版权侵权 [4] 案件程序信息 - 案件名为Nazemian v Nvidia,由加州北区联邦法院法官Jon Tigar审理 [1] - 英伟达提交的驳回动议预计将于2026年4月2日举行听证 [4]
英伟达被起诉,用盗版训练大模型成行业潜规则?
新浪财经· 2026-02-08 17:51
英伟达涉AI训练数据版权诉讼案 - 英伟达因使用“影子图书馆”的盗版图书数据训练其大语言模型,被五位作家提起集体诉讼,指控其侵犯版权 [3][4] - 英伟达于2026年1月31日提交正式动议,主张其行为属于“合理使用”,并要求法院驳回起诉,法院定于2026年4月2日举行听证会审理此动议 [4][18] - 起诉书内部记录显示,英伟达为应对OpenAI的竞争压力,在2023年开发者大会前通过“影子图书馆”获取了数百万本盗版图书用于训练模型 [4][19] 英伟达获取盗版数据的详细过程 - 英伟达发布的NeMo Megatron系列模型部分训练数据来自非营利机构EleutherAI发布的The Pile数据集,该数据集包含源自“影子图书馆”Bibliotik的Books3子集,约有19万本图书 [5][21] - 除使用The Pile外,英伟达被指控直接与全球最大的“影子图书馆”Anna‘s Archive合作,在管理层迅速批准后,获得了总量约500TB、涵盖数百万本盗版图书的访问权限 [7][22][24] - 英伟达转向盗版数据的直接原因是竞争压力:公司在2023年8月与多家图书出版商洽谈数据授权被拒,为赶在2023年秋季开发者大会发布领先模型,转而联系Anna’s Archive [7][23] “影子图书馆”的商业模式与风险 - “影子图书馆”如Anna‘s Archive提供付费的“优先级下载通道”或“高速企业级访问权限”,以换取数万美元级别的捐赠,这为大模型公司提供了便利但非法的数据源 [10][27] - Anna’s Archive声称,随着人工智能崛起,已为约30家公司提供高速数据访问权限,这为濒临消亡的“影子图书馆”带来了生机 [10][27] - 使用盗版资源带来巨大侵权风险,美国版权局2025年报告指出,商业用途下收集受版权保护的数据可能构成对复制权、编辑权、改编权的多重侵害 [10][27] 行业其他公司的类似诉讼与判例 - 多家AI巨头陷入类似纠纷:OpenAI、xAI、Anthropic、Meta等均遭遇训练数据版权诉讼 [4][20] - 2025年,Anthropic在一起侵权案中同意支付至少15亿美元达成和解,可能创下版权赔偿金额纪录 [4][20][28] - 2025年法院对Anthropic和Meta的两起案件作出判决:虽认定AI训练可能构成“合理使用”,但明知故犯地从盗版网站获取数据的行为可能被判定侵权 [11][28][29] 行业诉讼趋势与潜在影响 - 训练数据版权问题引发更多诉讼:2025年12月,六名作家起诉谷歌、OpenAI、xAI、Anthropic、Meta和Perplexity六家公司 [13][30] - 出版商群体也在2025年启动维权,例如多家大型出版商起诉AI初创公司Cohere,指控其未经授权使用超过4000部受版权保护的作品 [15][32] - 诉讼呈现全球化趋势:中国爱奇艺诉MiniMax案是国内视频平台首例AI训练数据诉讼;MiniMax同时在美国遭遇好莱坞巨头集体诉讼,索赔金额最高达7500万美元(约合52.8亿元人民币) [15][33]