Reddit sues Perplexity for scraping of posts, expanding user data battle with AI industry

诉讼核心指控 - 社交媒体公司Reddit在纽约联邦法院对人工智能公司Perplexity提起诉讼，指控其非法抓取用户帖子以训练AI模型[1] - 诉讼指控三家实体通过伪装身份、隐藏位置以及将网络爬虫伪装成普通用户来提取其受版权保护的内容[2] - Reddit称其用户帖子已成为Perplexity上AI生成答案最常引用的来源，并在发出停止函后，Perplexity对Reddit的引用量增加了四十倍[5] 被告方回应与立场 - Perplexity否认指控，并指责Reddit进行“敲诈”以及反对开放互联网，同时表示其不基于内容训练AI模型，仅是总结和引用公开讨论[2][6] - 另一被告SerpApi表示“强烈不同意”Reddit的说法，并计划在法庭上为自己辩护[2] - Perplexity认为这是公共数据成为上市公司商业模式重要组成部分时发生的不幸案例，并称屈从于强硬手段不是其做生意的方式[7] 行业背景与商业模式 - 案件是内容所有者指控AI公司在未经许可下使用受版权材料训练大语言模型的众多诉讼之一[3] - 在人工智能时代，Reddit致力于利用其海量数据池，仅通过AI相关许可协议允许访问，并已与OpenAI和Alphabet的谷歌签署此类协议[6] - Reddit首席运营官表示，与谷歌和OpenAI的AI许可协议占公司收入近10%[8] - Reddit首席法律官称，AI公司正陷入高质量人类内容的“军备竞赛”，压力催生了“工业规模的‘数据洗钱’经济”[4] 数据价值与战略重要性 - Reddit成为主要目标，因其是最大、最具活力的人类对话集合之一，其大量经过审核的对话有助于使AI聊天机器人产生更自然的回应[4][5] - Reddit托管着超过10万个基于兴趣的“subreddit”社区，数据许可已成为其日益重要的收入来源[5][7] - Perplexity指出，数据许可已成为Reddit越来越重要的收入来源，并称此诉讼是Reddit在与谷歌和OpenAI进行训练数据谈判时展示实力的表现[7]