核心观点 - AI大模型训练数据来源的合法性成为行业焦点,法院裁决显示训练行为本身具有"变革性"可能不构成侵权,但数据获取方式若涉及盗版则难以豁免 [8][19] - AI公司采用多种游走法律边缘的数据获取方式,包括公开抓取、蓄意清洗版权信息、格式转换、使用影子图书馆及平台隐私协议等 [10][11][12][13][16][17] - 版权诉讼导致行业从激进转向保守,数据获取成本急剧上升,内容出版商议价权提升,行业竞争壁垒抬高 [19][20][21] 数据获取方式 公开抓取与清洗 - OpenAI构建WebText数据集时抓取Reddit数百万外部链接,间接纳入受版权保护内容 [11] - OpenAI系统性移除版权声明等关键信息,行为性质从"顺手牵羊"升级为"数据清洗" [12] 格式转换 - OpenAI利用Whisper转录超100万小时YouTube视频内容,绕过视听版权 [13] - Anthropic实施"物理世界洗白计划":采购数百万纸质书→拆解扫描→销毁原件→建库,试图规避侵权指控 [13][14] 影子图书馆 - Meta训练Llama模型被指控直接使用Library Genesis等盗版书库 [16] - Anthropic创始人曾下载含20万本书的盗版库Books3并知晓其性质 [16] 平台隐私协议 - 谷歌通过隐私政策将用户公开内容(Google Docs/Maps/Blogger)纳入AI训练数据池 [17] 行业影响 法律裁决 - 法院裁决训练行为具有"变革性"不构成直接侵权,但对数据来源合法性划出红线 [19] - Anthropic可能面临7500亿美元天价诉讼赔款 [9] 商业模式转变 - OpenAI从激进转向保守,斥资与美联社、金融时报等签署内容许可协议 [20] - 苹果坚持通过授权许可(如Shutterstock)和自有数据规避风险 [20] - 数据成本将明确体现在财报中,"数据免费"时代终结 [20][21] 竞争格局 - 内容出版商转变为产业链上游具有议价权的关键参与者 [21] - 科技巨头相比创业公司在数据供应链、法务合规方面优势扩大 [21]
Anthropic天价赔款?大模型“盗版”的100000种花样
投中网·2025-08-17 15:03