AI版权关键进展：美国连判两案，大模型“偷书”不算偷

核心观点 - 美国两起司法判决为AI训练使用版权作品提供了"合理使用"的法律依据，但适用条件存在差异 [1] - 法院认为AI训练过程具有"高度转换性"，不构成对原作品市场的直接替代 [2][3] - 数据获取渠道合法性成为争议焦点，两案对"影子图书馆"的认定出现分歧 [5][6] - 判决强调市场影响是关键考量因素，不同行业受AI冲击程度可能不同 [7] - 版权争议已从文本领域扩展至视觉创作领域，引发多起诉讼 [8] 判决内容 - Meta案判决认为Llama模型训练符合"合理使用"原则，因其使用目的具有高度转换性且未再现原文 [2] - Anthropic案同样认定训练过程合法，但区分了合法扫描与盗版来源的不同性质 [3][4] - Meta使用Books3等影子图书馆数据训练模型，累计尝试授权投入上亿美元但未果 [5] - Anthropic建立"永久中央图书库"储存700万本盗版书籍，被认定构成独立侵权行为 [6] 法律分析 - 法院采用四要素判断标准：使用目的、作品性质、使用比例与市场影响 [7] - "高度转换性"指AI训练改变了作品原始用途（如从阅读变为代码生成） [2][3] - 中间性技术行为（如缓存、索引）可能被纳入合理使用范畴 [3] - 市场替代效应是核心考量，新闻类作品可能比图书更易受AI冲击 [7] 行业影响 - 判决为AI公司使用版权材料训练模型提供了有限法律空间 [1][3] - 视觉创作领域出现新诉讼，迪士尼/环球起诉Midjourney，国内插画师起诉Trik AI [8] - 授权机制缺失导致企业转向影子图书馆，Meta曾计划投入上亿美元获取授权 [5] - 技术防护措施（如"去记忆"技术）可能影响法院对侵权程度的认定 [6] 数据细节 - Meta的Llama模型训练数据2/3来自Common Crawl，其余来自Books3等 [5] - Anthropic建立中央图书库储存超过700万本图书，部分来自影子图书馆 [6] - Llama模型仅在极端提示下能重现约50个词的原文内容 [6]