你以为在举报AI烂片？谷歌：这招，我用验证码玩了15年

YouTube 的AI内容治理与数据采集策略 - YouTube向用户发起调查，询问视频是否具有“AI烂片”的感觉，评分从“完全没有”到“极其明显”，由用户自行判断[1] - 官方解释此举旨在打击泛滥的低质量AI生成内容[2] - YouTube拥有每天1.22亿活跃用户，用户对AI视频的打分行为，实际上在告诉系统哪些画面、动作和细节容易被识别为AI生成[7] - 有观点认为，此举表面是举报AI烂片，实则在帮助谷歌训练下一代AI视频生成模型Veo，利用用户反馈数据让模型生成更难被肉眼分辨的视频[6][7] - 与此同时，谷歌向一家专门为儿童制作AI视频内容的初创公司投资了100万美元[8] reCAPTCHA系统的历史与运作机制 1. 起源与目的：reCAPTCHA系统源于2000年前后为应对垃圾邮件机器人而发明的CAPTCHA图形验证码，其核心功能是区分真实人类用户与自动化程序[13] 2. 功能演变与数据采集： - 2007年推出的reCAPTCHA将验证码内容改为来自真实书籍的扫描图像，用户完成验证即帮助完成了古籍数字化，涉及书籍总量超过1.3亿册[15] - 2009年谷歌收购reCAPTCHA后，数据采集进入大规模阶段[16] - 2012年左右，reCAPTCHA v2将界面改为要求用户识别来自谷歌街景的真实照片中的物体（如红绿灯、人行横道），用户的每次点击都是在为谷歌的计算机视觉模型提供免费的训练数据标注[17][18][19] - 2018年推出的reCAPTCHA v3取消了验证题，通过静默追踪用户鼠标轨迹、页面滚动速度等行为模式来判断是否为真人，这些行为数据同样流入谷歌的AI训练体系[24] reCAPTCHA的规模、价值与商业应用 1. 巨大规模与商业价值： - 鼎盛时期，全球每天完成2亿个reCAPTCHA，每次耗时约10秒，折合每天超过50万小时的人工劳动[21] - 按数据标注行业最低市价估算，谷歌每天从中获取的免费劳动价值高达500万美元[21] - 该系统被广泛嵌入银行、政务平台、电商网站的登录入口，用户访问账户前必须完成，具有强制性，其覆盖的规模与密度是专业数据标注公司无法企及的[21] 2. 数据流向与商业产品： - 数据主要流向谷歌地图，为其识别路牌、定位商家、理解城市地理的底层能力提供了重要支撑[24] - 数据也流向谷歌旗下的自动驾驶项目Waymo，为其识别红绿灯、行人等视觉信息提供了核心训练数据[24] - Waymo在2024年完成超过400万次付费载客，估值达450亿美元[24] 核心观点：用户行为数据化的商业模式 - reCAPTCHA被描述为互联网史上规模最大、最鲜为人知的数据采集行动，用户以为在完成安全验证，实则在无偿为科技巨头完成极具商业价值的数据标注工作[11] - 谷歌将一套用户别无选择必须使用的安全机制铺设至整个互联网，悄然收割产出的海量数据，转化为价值数百亿美元的商业产品，而用户对此过程既未获得报酬也缺乏知情权[25] - 文章将YouTube对AI视频打分的行为与reCAPTCHA模式类比，指出其同样是将用户自发的行为包装成有益于平台生态的举动，同时将产生的数据悄悄收入囊中，用于喂养下一代商业产品[25]