Data scraping

搜索文档
Web giant Cloudflare to block AI bots from scraping content by default
CNBC· 2025-07-01 18:07
公司行动 - Cloudflare将默认阻止AI爬虫未经许可抓取网站内容 这一措施可能显著影响AI开发者的模型训练能力 [1] - 从周二开始 所有新注册Cloudflare的网站域名将被询问是否允许AI爬虫 从而赋予网站阻止数据抓取的权限 [2] - 该行动建立在2023年9月推出的工具基础上 当时允许发布者一键阻止AI爬虫 现在将此设为默认设置 [6] 行业背景 - Cloudflare作为内容分发网络(CDN) 通过缓存数据使用户更快获取在线内容 在全球互联网流量中占比约16% [2][3] - AI爬虫是自动化程序 专门从网站和数据库提取大量数据 用于训练OpenAI和谷歌等公司的大型语言模型 [4] - 传统互联网模式通过引导用户访问原始网站奖励创作者 而AI爬虫收集内容生成回答 使用户无需访问原始来源 [5] 行业影响 - AI爬虫被指控过度抓取数据 严重影响网站运营和用户体验 可能耗尽发布商的流量和在线广告收入 [5][7] - 该措施若有效实施 将阻碍AI聊天机器人收集训练和搜索数据 短期内影响模型训练 长期可能威胁模型可行性 [8] - OpenAI拒绝参与该计划 认为Cloudflare在系统中增加了中间环节 并强调其爬虫尊重发布者偏好 [6][7]
Reddit sues AI firm Anthropic over alleged unlawful data scraping
Proactiveinvestors NA· 2025-06-05 22:50
关于作者Angela Harmantas - 拥有15年北美股市报道经验 尤其专注于初级资源类股票 [1] - 曾为加拿大 美国 澳大利亚 巴西 加纳 南非等国的领先行业出版物进行报道 [1] - 曾从事投资者关系工作 并领导瑞典政府在加拿大的外国直接投资计划 [1] 关于出版商Proactive - 为全球投资受众提供快速 可获取 信息丰富且可操作的商业与金融新闻内容 [2] - 内容由经验丰富的新闻记者团队独立制作 [2] - 在全球主要金融和投资中心设有分社和工作室 包括伦敦 纽约 多伦多 温哥华 悉尼和珀斯 [2] 内容覆盖领域 - 专注于中小市值市场 同时覆盖蓝筹股公司 大宗商品和更广泛的投资故事 [3] - 提供生物技术和制药 采矿和自然资源 电池金属 石油和天然气 加密货币以及新兴数字和电动汽车技术等领域的新闻和独特见解 [3] 技术应用 - 积极采用前瞻性技术 内容创作者拥有数十年的宝贵专业知识和经验 [4] - 使用技术和软件工具辅助和增强工作流程 [4] - 偶尔使用自动化和生成式AI工具 但所有发布内容均由人类编辑和撰写 遵循内容制作和搜索引擎优化的最佳实践 [5]