Workflow
网络数据抓取
icon
搜索文档
企业在AI数据竞赛中如何重新掌控数据?
虎嗅· 2025-08-20 21:09
随着实时数据访问竞争的加剧,企业面临着日益严峻的法律和运营挑战:网络数据抓取。 最初,数据抓取只是业余爱好者的一种边缘策略,如今已演变成一个由商业数据聚合器驱动的、价值数 百亿元的复杂生态系统——自动机器人在面向公众的网站上撒下大网,收集价格数据、产品列表、评论 等,其速度通常比人类点击"刷新"的速度还要快。 如今,这些实体经常绕过传统的访问壁垒——并非直接入侵平台,而是利用合法用户的访问权限来绕过 技术和合同限制。 事实上,一家成功的互联网企业可能同时具有数据爬取者和被爬取者两种身份——数据的流入和流出中 都有智能代理程序发挥作用。在通用人工智能全面应用和社会数字化转型全面铺开的当代,网络数据爬 取行为更凸显了其重要价值。 最终用户同意 为了应对诉讼和公众的强烈反对,许多大型数据聚合器现在避免直接抓取数据。相反,他们通过一种更 微妙的方式进行利用:直接与平台的最终用户签订合同,并要求他们提供访问其账户的权限。 例如,金融聚合器可能会要求银行客户登录其网上银行界面来"关联账户"。关联后,聚合器会收集交易 历史记录、余额或其他账户数据,具体方式是使用客户凭证抓取网站数据,或通过授权的 API 连接。 即使平台本 ...