抗争起效,AI大厂终于不再“白嫖”维基百科
36氪·2026-01-21 20:21

行业合作模式转变 - 多家AI大厂加入维基媒体企业合作伙伴计划,付费获取维基百科的企业级数据访问权,包括亚马逊、Meta、微软、Mistral AI以及Perplexity [1] - 维基媒体基金会将根据AI厂商的特定需求,对海量文章数据进行结构化处理,使其更易于模型训练和商业用途 [3] - 来自亚马逊、微软等厂商的授权费用将直接用于支持维基媒体基金会这一非营利组织的长期运营 [3] 数据价值与获取动机 - 在AI大模型训练中,结构化数据以其清晰度、一致性和效率,成为构建可靠且可扩展模型的关键,尤其对于分类、回归和预测等任务 [4] - 结构化数据与知识图谱结合,可帮助AI大模型更准确地理解数据的上下文和语义 [7] - AI厂商的爬虫已成为维基百科的负担,AI倾向于鲸吞所有数据,导致冷门内容也被频繁访问,大量消耗带宽资源 [7][8] - AI厂商愿意付费是因为不希望维基百科倒下,当前AI模型的进化仍需依赖人类提供的大量训练数据 [8] AI行业的技术与竞争现状 - 构建AI大模型的关键技术是基于人类反馈的强化学习,需要持续向大模型投喂海量的预训练数据和高质量的指令微调数据 [10] - 探索中的“无数据自我进化”方法虽省去外部数据成本,但面临预训练算力激增和模型迭代时间更长的挑战 [12] - AI行业竞争激烈,处于“争先恐后”状态,没有厂商敢于慢工出细活,例如OpenAI在应对谷歌Gemini反扑时,仅用1个月时间就推出了GPT-5.2 [12] - 当无需外部数据的方法存在缺陷时,AI厂商不得不与拥有高质量数据的平台和解,付费获取数据比让自家员工创作内容更具性价比 [12]