Data scraping
搜索文档
Reddit CEO on data scraping lawsuit: Our duty is to protect our business and our users
Youtube· 2025-10-31 08:00
when we had uh Matthew Prince on uh he said not that long ago from Cloudflare that your site has actually been um let's say liberated by some companies that I think should know better. I'm thinking about anthropic and perplexity. I know you've been involved in some legal tangles and I'd ask you to get into that.But there is truth to people who are saying that I believe you think that there people are just plagiarizing you and taking advantage of you and it's not right. >> Well, look, we see both sides of th ...
Reddit Sues Perplexity, Others Over Alleged Data Scraping
Insurance Journal· 2025-10-23 13:13
Reddit Inc. sued Perplexity AI Inc. and three other companies over alleged data scraping from the discussion site without permission, a sign of the growing demand and value of original data in the burgeoning AI industry.Three data scraping companies — Oxylabs UAB, AWMProxy, and SerpApi — have been illegally collecting Reddit data via Google search results for the purpose of reselling it, according to the complaint filed Wednesday in federal court in Manhattan. Perplexity has been buying that data from at le ...
Web giant Cloudflare to block AI bots from scraping content by default
CNBC· 2025-07-01 18:07
公司行动 - Cloudflare将默认阻止AI爬虫未经许可抓取网站内容 这一措施可能显著影响AI开发者的模型训练能力 [1] - 从周二开始 所有新注册Cloudflare的网站域名将被询问是否允许AI爬虫 从而赋予网站阻止数据抓取的权限 [2] - 该行动建立在2023年9月推出的工具基础上 当时允许发布者一键阻止AI爬虫 现在将此设为默认设置 [6] 行业背景 - Cloudflare作为内容分发网络(CDN) 通过缓存数据使用户更快获取在线内容 在全球互联网流量中占比约16% [2][3] - AI爬虫是自动化程序 专门从网站和数据库提取大量数据 用于训练OpenAI和谷歌等公司的大型语言模型 [4] - 传统互联网模式通过引导用户访问原始网站奖励创作者 而AI爬虫收集内容生成回答 使用户无需访问原始来源 [5] 行业影响 - AI爬虫被指控过度抓取数据 严重影响网站运营和用户体验 可能耗尽发布商的流量和在线广告收入 [5][7] - 该措施若有效实施 将阻碍AI聊天机器人收集训练和搜索数据 短期内影响模型训练 长期可能威胁模型可行性 [8] - OpenAI拒绝参与该计划 认为Cloudflare在系统中增加了中间环节 并强调其爬虫尊重发布者偏好 [6][7]
Reddit sues AI firm Anthropic over alleged unlawful data scraping
Proactiveinvestors NA· 2025-06-05 22:50
关于作者Angela Harmantas - 拥有15年北美股市报道经验 尤其专注于初级资源类股票 [1] - 曾为加拿大 美国 澳大利亚 巴西 加纳 南非等国的领先行业出版物进行报道 [1] - 曾从事投资者关系工作 并领导瑞典政府在加拿大的外国直接投资计划 [1] 关于出版商Proactive - 为全球投资受众提供快速 可获取 信息丰富且可操作的商业与金融新闻内容 [2] - 内容由经验丰富的新闻记者团队独立制作 [2] - 在全球主要金融和投资中心设有分社和工作室 包括伦敦 纽约 多伦多 温哥华 悉尼和珀斯 [2] 内容覆盖领域 - 专注于中小市值市场 同时覆盖蓝筹股公司 大宗商品和更广泛的投资故事 [3] - 提供生物技术和制药 采矿和自然资源 电池金属 石油和天然气 加密货币以及新兴数字和电动汽车技术等领域的新闻和独特见解 [3] 技术应用 - 积极采用前瞻性技术 内容创作者拥有数十年的宝贵专业知识和经验 [4] - 使用技术和软件工具辅助和增强工作流程 [4] - 偶尔使用自动化和生成式AI工具 但所有发布内容均由人类编辑和撰写 遵循内容制作和搜索引擎优化的最佳实践 [5]