Workflow
Data Scraping
icon
搜索文档
Reddit sues Perplexity AI over ‘industrial-scale' data scraping
New York Post· 2025-10-24 04:11
诉讼核心与指控 - 社交媒体巨头Reddit起诉Perplexity AI及其他三家公司,指控其进行“工业规模”的数据抓取,以窃取网站帖子内容[1] - Reddit指控被告方进行不公平竞争、不当得利以及违反美国版权法,并寻求未指明的损害赔偿[4] - Reddit的首席法律官表示,这些数据抓取工具“隐藏身份、隐匿位置并伪装其网络爬虫,以从谷歌搜索中窃取Reddit内容”[6] 被告方与商业模式 - 除Perplexity AI外,诉讼还针对其依赖的较小合作伙伴,包括Oxylabs UAB、AWMProxy和SerpApi[5] - Reddit称Perplexity是这些抓取工具的“自愿客户”,选择购买被盗数据而非与Reddit达成合法协议[8] - 作为对比,谷歌和OpenAI等公司已与Reddit及其他内容提供商签署了数据使用协议[2] 数据价值与侵权规模 - Reddit拥有超过10万个“子版块”社区,其用户生成内容被研究人员认为有助于训练AI聊天机器人产生更类人的回答[11] - 诉讼中指出,Reddit用户帖子是Perplexity生成的AI答案中最常引用的来源[11] - Reddit向Perplexity发出停止函后,该AI平台对Reddit内容的使用量反而激增了“四十倍”[12] 被告方的回应 - Perplexity否认指控,并反诉Reddit进行“敲诈勒索”[8][13] - SerpApi发言人否认诉讼中的说法,并坚决支持其商业模式和行为[10] - Oxylabs的首席治理与战略官表示将坚决捍卫自己,并自称是公共数据收集领域的先驱和行业领导者[10] - AWMProxy未能立即取得联系以置评[11]
Reddit Sues Perplexity Over Alleged Data Scraping
PYMNTS.com· 2025-10-23 05:27
诉讼核心内容 - Reddit在美国纽约南区地方法院对Perplexity AI及三家数据爬取公司Oxylabs UAB、AWMProxy和SerpApi提起诉讼 [1][3] - 诉讼指控上述公司通过自动化工具未经授权收集并转售Reddit论坛的数据 [1][3] - 据诉状称Perplexity AI至少从一家爬取公司购买了Reddit数据 [3] 行业背景与公司立场 - Reddit首席法律官表示AI模型日益依赖高质量的人类生成文本此诉讼代表了行业面临的更广泛挑战 [4] - AI公司对优质人类内容的争夺催生了工业规模的数据清洗经济 [4] - Reddit的公开对话库已成为训练生成式AI模型的关键资源公司已与OpenAI和谷歌签署付费数据许可协议 [5] - Reddit声称未经授权利用其数据的行为破坏了公平竞争和创作者权利 [5] 相关法律案例与影响 - 此案案号为Reddit Inc v SerpApi LLC 25-cv-08736可能有助于界定美国法院对用于AI模型训练的网络爬取内容合法性的解释 [7] - 今年早些时候Reddit对Anthropic提起了类似诉讼指控该AI初创公司非法使用Reddit数据训练其大语言模型 [6] - 法律专家指出Reddit的诉讼是日益增多的争议的一部分这些争议正在塑造数据治理和合规格局例如纽约时报诉OpenAI案迫使公司重新评估内容所有权、同意和数据来源的管理方式 [7]