Anthropic天价赔款？大模型“盗版”的100000种花样

核心观点 - AI大模型训练数据来源的合法性成为行业焦点，法院裁决显示训练行为本身具有"变革性"可能不构成侵权，但数据获取方式若涉及盗版则难以豁免 [8][19] - AI公司采用多种游走法律边缘的数据获取方式，包括公开抓取、蓄意清洗版权信息、格式转换、使用影子图书馆及平台隐私协议等 [10][11][12][13][16][17] - 版权诉讼导致行业从激进转向保守，数据获取成本急剧上升，内容出版商议价权提升，行业竞争壁垒抬高 [19][20][21] 数据获取方式公开抓取与清洗 - OpenAI构建WebText数据集时抓取Reddit数百万外部链接，间接纳入受版权保护内容 [11] - OpenAI系统性移除版权声明等关键信息，行为性质从"顺手牵羊"升级为"数据清洗" [12] 格式转换 - OpenAI利用Whisper转录超100万小时YouTube视频内容，绕过视听版权 [13] - Anthropic实施"物理世界洗白计划"：采购数百万纸质书→拆解扫描→销毁原件→建库，试图规避侵权指控 [13][14] 影子图书馆 - Meta训练Llama模型被指控直接使用Library Genesis等盗版书库 [16] - Anthropic创始人曾下载含20万本书的盗版库Books3并知晓其性质 [16] 平台隐私协议 - 谷歌通过隐私政策将用户公开内容（Google Docs/Maps/Blogger）纳入AI训练数据池 [17] 行业影响法律裁决 - 法院裁决训练行为具有"变革性"不构成直接侵权，但对数据来源合法性划出红线 [19] - Anthropic可能面临7500亿美元天价诉讼赔款 [9] 商业模式转变 - OpenAI从激进转向保守，斥资与美联社、金融时报等签署内容许可协议 [20] - 苹果坚持通过授权许可（如Shutterstock）和自有数据规避风险 [20] - 数据成本将明确体现在财报中，"数据免费"时代终结 [20][21] 竞争格局 - 内容出版商转变为产业链上游具有议价权的关键参与者 [21] - 科技巨头相比创业公司在数据供应链、法务合规方面优势扩大 [21]